[tutorial 2026] Jak zrobić instrumental / acapella / 10 stem z dowolnego utworu [Ultimate Vocal Remover 5/Colab/MVSEP]
: 25 cze 2020, 3:21
Marzwc 2026
Ostatnia wersja aplikacji UVR ze wsparciem architektury Mel/BS-Roformer. Fix dla kart RTX 5000 w sekcji issues.
Możecie używać w niej poniższych modeli do instrumentali (linki do modeli jeśli jakiegoś nie ma w Download Center w UVR) albo separować online w darmowym Google Colabie z różnymi modelami
Są już tam nowsze modele (linki do pobrania są w kodzie notebooka).
Z nowszych polecanych do instrumentali:
Deux, Resurrection inst (czasem bardziej szumi), Inst_Gabox_FV8 (czasem bardziej destruktywny).
HyperACEv2 (nie działa w UVR, trochę szumi), FlowersV10 (pełny, bardziej szumi), fv8n (pełny, ale szumi)
Starsze
V1e+ (ressurrection raczej lepszy), instv7 (starszy już), Inst_Fv8
FV7B, FV7Z (pozbawione szumu, ale zjadają hihaty, destruktywne)
Phase fixer z becruily voc i inst (czasem lepsza alternatywa, by pozbyć się szumów)
(23.03.26)
Starsze z opisami:
- INST-Mel-Becruily (chyba najlepsze instrumentale są z tego modelu teraz, podobne rezultaty co v1 niżej, ale mniej szumu - czasem model Mel Denoise i Mel debleed mogą się przydać do doczyszczenia zwłaszcza bez phase fixera, źle działa z dim_t 256) - Phase Fixer Colab (używa fazy z wariantu wokalowego dla mniejszego szumu po wokalach, choć ciut zamula rezultat; utworzyć ręcznie foldery wejściowe i wyjściowe na GDrive przed separacją, bo inaczej się wywali separacja)
- Mel Unwa inst v1e/v1/v2 (mogą być mniej zamulone, ale mniej zbalansowane - podałem najpierw wedle tego gdzie najwięcej jest szumu z wokali, ale i pełności z instrumentala, aż do coraz większego zamulenia)
Phase fixer też naprawia trochę szum tych modeli z automatu (tutaj sam prosty skrypt pythonowski do tego)
- Unwa Big Beta 5e FT (nie ma takiego przeciekania wokali jak w unwa inst wyżej) / Mel Kim FT by Unwa
- viperx 1297 (bywa bardziej zamulony, czasem zostawia oddechy czy fragmenty skreczy) / BS-Roformer Large by Unwa (czasem mniej przeciekania, ale bardziej destruktywny)
- MDX23 Colab - połączenie modeli viperx, Kim Mel i MDX23C HQ (chyba już przestało działać)
- Mel Kim (kiedyś najbezpieczniejszy - jeśli przeciekanie wokali nadal jest za duże, ale są już ogólnie lepsze) Colab
- Modele dostępne tylko online na MVSEP:
a) domyślne dwustemowe Mel-Roformer i BS-Roformer (powinny mniej przeciekać od Mel-Kim i viperx, ale bez premium utykasz tam w kolejce jak do lekarza na NFZ, z samym zalogowanym kontem tylko troszkę lepiej - czasem wieczorami czy nocami jest mniejsza kolejka, czy może rano).
b) Ensemble 2 stem (tylko premium) - najmniej przeciekania wokali na obecną chwilę, ale również najbardziej wyprane z życia podkłady.
c) Multistem Esnemble (tylko premium) - jak macie już dobrze brzmiący instrumental wcześniej zrobiony np. innymi metodami wyżej, to całkiem dobrze sobie tamtejsze modele radzą. Są też osobne do gitar, drumsów, pianina. Można obejść premium stosując stem other wyizolowany z np. MDX23 Colab który linkowałem, ale tam też warto wyciągnąć dobrze brzmiącego instrumentala czasem innymi metodami.
UVR wspiera akcelerację kart Nvidia, AMD i Intel (zarówno ARC jak zintegrowane). Min. 4GB VRAM zalecane (wtedy czasem w pliku yaml danego modelu w \models\MDX_Net_Models\model_data\mdx_c_configs na samym końcu trzeba obniżyć wtedy chunk_size (dawniej dim_t do 201/256/301), bo inaczej się wykrzaczy). Generalnie karty Nvidii działają w UVR lepiej, chyba że używacie ROCm na WSL na kartach AMD (normalnie jeszcze nie działa). Roformery zajmują o wiele więcej czasu w separacji od MDX-Net.
Są jeszcze inne fajne modele (choć mają więcej szumu lub przeciekania z wokali, ale są szybsze):
- MDX-Net HQ_4 i 3
(HQ_5 są lepsze do wokali, instrumentale wychodzą czasem trochę zamulone). Czasem też model inst 3 potrafi się do czegoś nadawać, ale to już model ograniczony do 17.7kHz i ma więcej szumu od HQ_5. Colab
__________
GSEP (od jakiegoś czasu już płatny)
https://studio.gaudiolab.io/
Całkiem nieźle czasem potrafił działać, jak już wszystko zawiodło.
2-6 stem
BS-Roformer 6 stem SW - dostępne w Colabie na samej górze -
z darmowych rzeczy, lepsze od zwykłego Demucsa 4 ft i MDX23: Colab
(po zaznaczeniu opcji dla 4 stem)
(tylko czasem warto zapodać już dobrze wcześniej wysyparowany instrumental z modeli do instrumentali, bo tu mogą wychodzić trochę bardziej zamulone niż np. inst v1e/v1/v2)
Do dalszej separacji drumsów model Drumsep MDX23C jest dobry Colab
Do wokali z powyższego są w UVR dobre obecnie np.
Fv4, Resurrection voc, Revive 3e, Beta 6X
Starsze:
unwa v5e (choć ma trochę szumu), potem v4, v2 duality, i może Kim FT lub zwykły Mel-Kim.
I jak komuś chce się bawić w DAWie, to UVR>Audio Tools>Manual Ensemble jako kombinacje powyższych, lub manualnie w DAWie importując rezultaty i manipulując głośnością dla każdego pliku z modelu, jak Wam się podoba najbardziej. Polecam różnie dla różnych zwrotek i refrenów ustawiać proporcje między modelami.
Używajcie plików bezstratnych, to będą ciut mniej zamulone separacje wychodzić. Poza tym co opisywałem niżej dla konta premium dla Tidala (są czasem darmówki na Pepper) jest jeszcze Lucida.
Grudzień 2022
4, 5, 6 Stem
Demucs 4
(gitara (nieźle), pianino [słabo])
https://colab.research.google.com/drive ... RZpmd_ozu1
GSEP
(gitara (nieźle, czasem nie łapie z intrumentali), pianino [dobrze])
https://studio.gaudiolab.io/
Instrumentale lub wokale:
- GSEP 2 stem (vocals, other)
- UVR5 GUI
https://github.com/Anjok07/ultimatevocalremovergui
Lub przez Colab podmień i to też po instalacji Colaba na GDrive
MDX-UVR Inst 3 model (464)
W paczce do GUI
https://www.buymeacoffee.com/uvr5/vip-m ... structions
(opcjonalna donacja)
lub
- (438) "MDX 2.1" (tylko GUI; Main, obecnie domyślny MDX w GUI)
- (418) (GUI)
(lepsze rezultaty; UVR 5 GUI)
Opcja Ensemble
UVR-MDX-NET Inst 3 (464) i UVR-MDX-NET_Main_438 (main) i htdemucs_ft - Ensemble Algorithm: Average/Average
lub
UVR-MDX-NET Inst 3 jako main model i 7_HP2-UVR jako secondary
Bieżące zestawienie wyników różnych modeli i AI
https://mvsep.com/quality_checker/leaderboard.php
(bardzo zaniża wyniki dla GSEP, prawdopodobnie z powodu zastosowania postprocessingu)
Nie wrzucajcie na GSEP rzeczy w stratnym 48kHz lub opcją URL link do YT, bo wypluwa mp3 128kbps zamiast 320kbps. Dla rzeczy z YT, jak nie macie FLAC/WAV, ściągacie najpierw plik audio jako Opus (inaczej będzie AAC/M4A i 16kHz cap jak w mp3 128kbps), a potem konwertujecie Opus np. Foobarem do 44kHz (wtyczka resampler) i do WAV 32 bit float.
Kick, hihat
Virtual DJ 2023 with Stems 2.0 (darmowy od niedawna dla użytkowników domowych)
(nie zawsze łapie)
FactorSynth (dobre rezultaty dla ścieżki drums z GSEP lub Demucs 4, dodatek dla Ableton, płatne)
Deep Audio RipX (płatne)
Sierpień 2022
viewtopic.php?f=7&t=695&p=713920#p713920
Kwiecień 2022
Jak uzyskać dobrej jakości instrumental z dowolnego utworu
0. Najpierw zaopatrujemy się w bezstratny utwór (mniejsza szansa na przeciekanie wokalu do instrumentala, i lepsza separację instrumentów).
1. Wchodzimy na https://studio.gaudiolab.io/gsep i tam logujemy się przez Google, używamy opcji vocal and others.
*. MDX - najlepiej sprawdza się do separacji wokali. Opcja invert vocal zwraca gotowy plik. Opcja vocal sam wokal. Aby uzyskać invert_vocals potrzebujemy zaznaczonej opcji vocal.
https://colab.research.google.com/drive ... sp=sharing
Link wyżej linuksowe środowisko zdalne Pyhtona a dokładniej tzw. notatnik z następującym po sobie odpowiednio kodem do wykonania.
Klikaj kolejno po wykonaniu guziki w kształcie "Play", pierwszy obok Initialize MDX B, potem otwórz w nowej karcie link do autoryzacji GDrive który wyskoczy, potem wybierz swoje konto, w nowym oknie naciśnij guzik kopiuj obok kodu autoryzacyjnego. Potem naciśnij CTRL+V w głównym oknie w wolnym polu które pojawiło się do wpisania kodu autoryzacyjnego.
Teraz dokonałeś autoryzacji i instalacji MDX na koncie Google. Wejdź do katalogu MDX_Colab\tracks na koncie Google lub w rozwijanej opcji z prawej strony, i skopiuj do niego plik z którego chcesz wyciągnąć instrumental. Po przesłaniu pliku w input track wpisz poprawną nazwę pliku który będziemy przerabiać. Teraz naciśnij guzik "Play" obok input track. Rozpocznie się proces przerabiania utworu, który potrwa do 5 minut albo krócej.
Po zakończeniu, swój plik wynikowy znajdziesz w katalogu MDX\separated
Vocal_inv to instrumental
Vocal jak sama nazwa wskazuje, to sam wokal.
Gdyby efekt końcowy nie był w pełni zadowalający, wypróbuj jeszcze to analogiczne narzędzie oparte o to samo środowisko zdalne. Zasada działania jest ta sama.
* Ultimate Vocal Remover 5
Zachowuje największe spektrum częstotliwości min. dzięki opcji mirroring, choć nie separuje tak dobrze jak GSep. W większości lepiej niż MDX, ale nie zawsze (gorsze spektrum).
https://colab.research.google.com/githu ... arch.ipynb
Dla lepszego efektu możesz zmienić ustawienia domyślne na window size 272 lub 320, włącz TTA i postprocessing.
Oczywiście nie daję gwarancji, że każdy instrumental koniec końców będzie brzmiał dobrze. Są wyjątki jak Noc z Art brut 2, gdzie werble są mało wyraźne.
Tu eksperymentalnie z pomocą przychodzi opcja Ensemble (model cocktail). Polega na łączeniu najlepszych części składowych z więcej niż jednego modelu. Najlepiej do 4. Tutaj możemy zostawić wybrane oba domyślne, do tego wybrać jeszcze domyślny z pola separacji pojedynczego modelu wyżej, i np. 3 band MTSB. Zawsze daje to szansę na inny efekt
Demucs 3.0 -
4 stem
https://colab.research.google.com/drive ... 3qgZoC9bm0
Jeśli chcesz podejrzeć jak niektóre bity są zrobione lub zmiksować je po swojemu, to dobrze trafiłeś. Od tego narzędzia warto zacząć robienie swojego własnego remastera danego utworu. Wokal, bass, bębny, i inne dźwięki (np. gitara, pianino). Celem remasteringu nie warto tego czasem używać tylko jeśli nasz utwór nie ma wokalu. Wtedy częściej lepszy efekty potrafią wychodzić przy obróbce oryginalnej ścieżki. Jednak nie zawsze.
Co prawda Spleeter ma 5 stem i dedykowany model pianino, ale reszta stemów jest bardzo slaba w porównaniu do Demucs jakościowo.
https://www.lalal.ai/
7 stem
Usługa online ograniczenie 10 minut/50MB na plik dla darmowego użytkownika.
Model gitarowy (jest do akustycznej i elektrycznej) piano, vocal, drums, bass, syntezator, lub instrumental+wokal (tu lepiej radzi sobie UVR lub MDX).
“I love demucs 3, although for some specific songs (with a lot of percussions and loops) I still find lalal better
demucs is great at keeping punchy drums, for example hip-hop, rap, house etc songs”
DeMIX Pro V3
Płatny program, 6 stem
https://www.audiosourcere.com/demix-pro ... -software/
https://www.demixer.com/?utm_source=aud ... e-exit-pop
___
Używaj bezstratnych plików
Nie wiem czy masz subskrypcję Spotify z bestratnymi plikami. Marna też szansa, że Spotify ma pliki 24 bit jak na Tidal.
Do pobierania FLAC można wziąć sobie subskrypcję Tidal Hi-Fi z Peppera. Zazwyczaj są promki po parę złotych na kilka miesięcy.
Potem użyć Tidal Downloader Pro (GUI) lub Tidal Downloader (fajna binarka wiersza polecen z instrukcjami) z Githuba (w zależności który aktualnie działa, bo soft jest co jakiś czas łatany). Najlepiej wcześniej zainstalować i zalogować się na Tidalu w wersji Windows, nie UWP, i pomaga to czasem w pobieraniu lepszej jakości plików niż 16 bit. Nie zawsze też master to 16 bit. Czasem to po prostu przekonwertowane MQA ciut gorszej jakości od zwykłego FLAC jak w tym wypadku. Eminem ostatnie Side A/B to napewno 24 bit. Zresztą można sobie sprawdzić jak jest napisane MQA w programie pobierającym i potem we właściwościach pliku lub w MediaInfo. Akurat album Sokoła był w wersji Master MQA, ale 16 bit, i lepiej było wziąć do tego FLAC z innnego źródła. Po prostu się nabrałem. Do tego w tamtym czasie używałem starego modelu UVR 4Band Beta 2 z ustawieniem agresywności dla tego konkretnego modelu (bodaj 0.09). Nowych jeszcze nie było, powinny mniej przeciekać.
Ale co zrobić jak mamy ten uboższy MQA 16 bit i fajnie by było mieć normalny FLAC, a na stronie u samej góry nie ma?
Jest jeszcze taka stronka allflac.com.
Otwiera się na PC konsolę dewelopera, w którejś zakładce wchodzi się w media i otwiera się wtedy podgląd pliku. Wtedy wyskakuje FLAC w media, ten dziwny link trzeba otworzyć w nowej karcie i zacznie się pobieranie. To prawdopodobnie Ruscy, którzy postawili to wszystko na dziko, i żadni artyści nic z dochodu tej stronki nie mają.
Ten FLAC juz powinien być ten właściwy.
Jak jest coś polskiego i nie tylko, to w wyszukiwarce na stronie głównej chomika wyszukujesz cokolwiek, przechodzi do głównej strony wyszukiwania, tam wpisujesz FLAC lub WAV w rozszerzeniu i też sporo rzeczy bywa. Ew. po poprostu lucida, qqdl, albo doubledouble.top.
__
Jak to wrzucać potem na YT w jak najlepszej jakości?
Nie omieszkaj zajrzeć jak to zrobić dobrze tym narzędziem:
https://disk.yandex.com/d/w7gmg_9mKSni2Q
Klikasz download all, wypakowujesz, wrzucasz wszystkie pliki audio do tego folderu u góry, odpalasz skrypt, który konmwertuje wszystkie pliki.
Polega to na tym, że kopiuje strumień audio do kontenera MKV, zamiast go kompresować do innego kodeku audio, do tego używa okładki w folderze pod nazwą 4K.png. Grunt, żeby była minimum w XXX x 1440p, bo inaczej YT będzie rekompresował z AAC do Opusa po pewnym czasie (tu już oszczędzamy jedną rekompresję) i żeby wrzucać do kontenera ten sam plik audio jak tutaj (tu oszczędzamy drugą rekompresję). Możesz przeskalować np. na https://upscalepics.com/ lub ew. Xnview MP jakimś algorytmem (skrót CTRL+Shift+S).
Od teraz masz najlepszą jakość na YT.
Jeżeli masz gotowe wideo zamiast miniatury
PS. W skrypcie do tworzenia wideo są dodane binarki FFMPEG. Jeśli chcesz mieć pewność, że pliki są bezpieczne, możesz ściągnąć FFMPEG z innego źródła, i podmienić tamte 3 pliki exe swoimi pobranymi z sieci.
_________________________________________
Wszystko, co znajduje się poniżej w kwestii 2 stem możecie uznać za nieaktualne, jak również tutaj:
viewtopic.php?f=12&t=5641&p=471823#p471823
________________________________________
Spleeter
Trzy tryby:
Vocals (singing voice) / accompaniment separation (2 stems)
Vocals / drums / bass / other separation (4 stems)
Vocals / drums / bass / piano / other separation (5 stems)
Oryginalna strona narzędzia (obsługa przez linię poleceń):
https://github.com/deezer/spleeter
Ponoć kiepsko działa z metalem. Ogólnie nie w każdym przypadku radzi sobie wystarczająco dobrze, czasem słychać drobne syczenie wokalu w tle instrumentala, jest to też zmienne, do tego góra nie zawsze jest satysfakcjonująca, i trzeba się trochę namęczyć przy jej poprawianiu niekiedy, bo okazjonalnie zanika. Także nie jest to narzędzie idealne, choć ścieżki z wokalami wychodzą nie najgorsze.
Wersja GUI (z interfejsem zamiast linii poleceń) dla Windows:
https://github.com/lazydevyo/SpleetGUI/
(do obu wymagany jest CPU z AVX do wersji tensorflow bez akceleracji GPU lub GPU Nvidia do wersji z akceleracją)
Z GUI czy bez, wymagane środowisko uruchomieniowe Python 3.7:
https://www.python.org/downloads/windows/
Alternatywne narzędzie GUI:
https://github.com/boy1dr/SpleeterGui
Wersje narzędzia do użytku online:
(radzę uważać na te, które nie oferują wyłączenia obcięcia wysokich tonów, nie zawsze też da się bez premium, jak też nie zawsze na wyjściu i l/lub wejściu możemy używać bezstratne pliki - na wersji GUI/oryginalnej w Pythonie. Ograniczenia te nie powinny obowiązywać w wersjach GUI i oryginalnej. Czasem darmowo jest zazwyczaj ograniczenie ilości wgrywanych plików)
https://www.splitter.ai/
(akceptuje na wejściu WAV, MP3, OGG, M4A, WMA i FLAC, darmowo od 0.5 MB do 50MB, do 20 minut; na wyjściu FLAC, chyba że na wejściu jest mp3, to też mp3 będzie na wyjściu (można skonwertować wcześniej taki plik do FLAC jak nam zależy) )
(wysokie tony powyżej 11kHz są domyślnie)
Uważać na wyskakujące okno na wpisanie maila zaraz po zakończeniu wysyłania pliku, i po ew. zamknięciu okna, że strona nam się podoba, bo szybko znika okno na wpisanie maila, wtedy nie trzeba znów wysyłać pliku, ale klikamy na guzik my uploads, i tam pokazują się wszystkie pliki wysłane w tej sesji przeglądarki wraz z postępem. Przesłane na mail stemy po 24h wygasają, i nie są już dostępne do pobrania. W modelu 5 stem czasem działa to praktycznie od razu, raz z pół godziny/+ czekałem, raz w ogłoszonym dniu obłożenia serwerów nawet 8 godzin czekałem na jeden z trzech wysłanych kawałków w danym dniu. Na drugi dzień nawet nie przyszła reszta (w tamtym czasie była akurat zresetowana kolejka dla modelu 5 stem, ale w razie problemów uprzedzam). Z tego samego IP wtedy na inny mail też nic nie przyszło. Jedynie na kolejny z innego IP. Ale na ogół takie rzeczy się nie dzieją. Brak też priorytetowego kolejkowania użytkowników premium na obecną chwilę, ale niekoniecznie widzę, by było potrzebne jeśli działa to i tak odrazu. Przy większym ruchu, bardzo możliwe, że po północy pliki będą przychodzić szybciej.
Wniosek jest taki - w razie problemów z serwerami - wrzuć jeden plik na jednym IP i mailu, a do drugiego pliku zmień IP (VPN) i maila wraz z sesją przeglądarki (tryb incognito), jeśli więcej niż jeden plik nie przyjdzie. Może nie zawsze będzie tak trzeba.
Minusem jest to, że nie da się wgrać wielu plików naraz, ale można odpalić stronę kilka razy jednocześnie, i wrzucić kilka plików jednocześnie. Wtedy wszystkie pokażą się w my uploads. Pliki wynikowe z wetransfer można pobierać na raz w liczbie ok. 5. Powyżej, strona się przywiesi po naciśnięciu download, ale od razu rozpocznie pobierać po zakończeniu pobierania poprzedniego pliku, więc nie zamykajcie takiej karty, która pokazuje wtedy, że coś cały czas ładuje, bo to właśnie oczekiwanie na zakończenie pobierania poprzedniego pliku z tego serwera.
https://ezstems.com/
(darmowo przyjmuje dowolny plik do 10MB, i plik wynikowy może być bezstratny, jest opcja wysokich tonów (czyli 16kHz cut off zamiast 11kHz) pobieranie plików wynikowych z prędkością 128kB/s)
Oczekiwanie na gotowy plik dzieje się na stronie, nie możemy zamknąć okna, lub podać email, jedynie przez premium można pominąć kolejkę. Potrafi to trwać koszmarnie długo co najmniej w modelu 5 stems, czasem nie ma wcale kolejki, a czasem trzy osoby schodzą krótko. To zależy od dnia. W sobotę po południu np. jest luźno, a w niedzielę wieczór raz miałem dramat i 360 osób w kolejce. Jest jeszcze opcja darmowego logowania, gdzie pokazują się ostatnio wygenerowane pliki, ale można je ściągnąć tylko do 6 godzin. PS. Jeżeli masz jakieś krótkie części utworu, które są zniekształcone, i wycisza się na moment głośność, wiem, że metoda na Google Colab jest tego problemu pozbawiona, do tego na ezstems rzadziej te problemy zdarzają się niż wcześniej, niemniej tylko w jednym utworze miałem ten problem jak na razie.
https://thepirat000.github.io/spleeter-api/
(ma opcję wysokich tonów, ale akceptuje tylko mp3 na wejściu i wyjściu chyba to samo)
https://moises.ai/
(można wysłać plik w dowolnej jakości, ale opcja bez obcinania >11kHz w pliku wynikowym jest tylko dla użytkowników premium)
https://melody.ml/
(pozwala wysłać tylko plik mp3, na wyjściu obcina wszystko powyżej 11kHz)
Przyszły mi właściwie od razu gotowe pliki co ciekawe. Czyli mała kolejka.
Post niżej o Google Colab
https://www.lalal.ai/
Inna metoda niż Spleeter. Umożliwia przeprocesować darmowo tylko 3 utwory (max. 10 min). Wydobywa tylko wokal i instrumental (czyli tylko 2 stemy zamiast 4 lub 5 jak umożliwia opcjonalnie Spleeter). Zaletą w porównaniu do Spleetera jest to, że zamiast ucinać plik do 32kHz, ucina wszystko do 44kHz, i pozostawia plik jako np. 24 bit, jeśli taki był źródłowo.
Więcej informacji technicznych i porównań
https://medium.com/lalal-ai-official-bl ... f4211d40c0
Więcej informacji technicznych i porównań
https://medium.com/lalal-ai-official-bl ... f4211d40c0
Jak wynika z powyższego porównania, subiektywnie jakość obu modeli Spleeter-16kHz (32kHz) i LALAL.AI (prawdopodobnie w przypadku instrumentala) jest porównywalna, jednak przy zastosowaniu odpowiedniego miksowania wszystkich Stemów niż tylko używając pojedynczej ścieżki, końcowo Spleeter może zabrzmieć lepiej. Po takim zabiegu i użyciu różnych wtyczek, u mnie na spektogramie na plikach jest już w takim przypadku 44kHz.
Ostatnia wersja aplikacji UVR ze wsparciem architektury Mel/BS-Roformer. Fix dla kart RTX 5000 w sekcji issues.
Możecie używać w niej poniższych modeli do instrumentali (linki do modeli jeśli jakiegoś nie ma w Download Center w UVR) albo separować online w darmowym Google Colabie z różnymi modelami
Są już tam nowsze modele (linki do pobrania są w kodzie notebooka).
Z nowszych polecanych do instrumentali:
Deux, Resurrection inst (czasem bardziej szumi), Inst_Gabox_FV8 (czasem bardziej destruktywny).
HyperACEv2 (nie działa w UVR, trochę szumi), FlowersV10 (pełny, bardziej szumi), fv8n (pełny, ale szumi)
Starsze
V1e+ (ressurrection raczej lepszy), instv7 (starszy już), Inst_Fv8
FV7B, FV7Z (pozbawione szumu, ale zjadają hihaty, destruktywne)
Phase fixer z becruily voc i inst (czasem lepsza alternatywa, by pozbyć się szumów)
(23.03.26)
Starsze z opisami:
- INST-Mel-Becruily (chyba najlepsze instrumentale są z tego modelu teraz, podobne rezultaty co v1 niżej, ale mniej szumu - czasem model Mel Denoise i Mel debleed mogą się przydać do doczyszczenia zwłaszcza bez phase fixera, źle działa z dim_t 256) - Phase Fixer Colab (używa fazy z wariantu wokalowego dla mniejszego szumu po wokalach, choć ciut zamula rezultat; utworzyć ręcznie foldery wejściowe i wyjściowe na GDrive przed separacją, bo inaczej się wywali separacja)
- Mel Unwa inst v1e/v1/v2 (mogą być mniej zamulone, ale mniej zbalansowane - podałem najpierw wedle tego gdzie najwięcej jest szumu z wokali, ale i pełności z instrumentala, aż do coraz większego zamulenia)
Phase fixer też naprawia trochę szum tych modeli z automatu (tutaj sam prosty skrypt pythonowski do tego)
- Unwa Big Beta 5e FT (nie ma takiego przeciekania wokali jak w unwa inst wyżej) / Mel Kim FT by Unwa
- viperx 1297 (bywa bardziej zamulony, czasem zostawia oddechy czy fragmenty skreczy) / BS-Roformer Large by Unwa (czasem mniej przeciekania, ale bardziej destruktywny)
- MDX23 Colab - połączenie modeli viperx, Kim Mel i MDX23C HQ (chyba już przestało działać)
- Mel Kim (kiedyś najbezpieczniejszy - jeśli przeciekanie wokali nadal jest za duże, ale są już ogólnie lepsze) Colab
- Modele dostępne tylko online na MVSEP:
a) domyślne dwustemowe Mel-Roformer i BS-Roformer (powinny mniej przeciekać od Mel-Kim i viperx, ale bez premium utykasz tam w kolejce jak do lekarza na NFZ, z samym zalogowanym kontem tylko troszkę lepiej - czasem wieczorami czy nocami jest mniejsza kolejka, czy może rano).
b) Ensemble 2 stem (tylko premium) - najmniej przeciekania wokali na obecną chwilę, ale również najbardziej wyprane z życia podkłady.
c) Multistem Esnemble (tylko premium) - jak macie już dobrze brzmiący instrumental wcześniej zrobiony np. innymi metodami wyżej, to całkiem dobrze sobie tamtejsze modele radzą. Są też osobne do gitar, drumsów, pianina. Można obejść premium stosując stem other wyizolowany z np. MDX23 Colab który linkowałem, ale tam też warto wyciągnąć dobrze brzmiącego instrumentala czasem innymi metodami.
UVR wspiera akcelerację kart Nvidia, AMD i Intel (zarówno ARC jak zintegrowane). Min. 4GB VRAM zalecane (wtedy czasem w pliku yaml danego modelu w \models\MDX_Net_Models\model_data\mdx_c_configs na samym końcu trzeba obniżyć wtedy chunk_size (dawniej dim_t do 201/256/301), bo inaczej się wykrzaczy). Generalnie karty Nvidii działają w UVR lepiej, chyba że używacie ROCm na WSL na kartach AMD (normalnie jeszcze nie działa). Roformery zajmują o wiele więcej czasu w separacji od MDX-Net.
Są jeszcze inne fajne modele (choć mają więcej szumu lub przeciekania z wokali, ale są szybsze):
- MDX-Net HQ_4 i 3
(HQ_5 są lepsze do wokali, instrumentale wychodzą czasem trochę zamulone). Czasem też model inst 3 potrafi się do czegoś nadawać, ale to już model ograniczony do 17.7kHz i ma więcej szumu od HQ_5. Colab
__________
GSEP (od jakiegoś czasu już płatny)
https://studio.gaudiolab.io/
Całkiem nieźle czasem potrafił działać, jak już wszystko zawiodło.
2-6 stem
BS-Roformer 6 stem SW - dostępne w Colabie na samej górze -
z darmowych rzeczy, lepsze od zwykłego Demucsa 4 ft i MDX23: Colab
(po zaznaczeniu opcji dla 4 stem)
(tylko czasem warto zapodać już dobrze wcześniej wysyparowany instrumental z modeli do instrumentali, bo tu mogą wychodzić trochę bardziej zamulone niż np. inst v1e/v1/v2)
Do dalszej separacji drumsów model Drumsep MDX23C jest dobry Colab
Do wokali z powyższego są w UVR dobre obecnie np.
Fv4, Resurrection voc, Revive 3e, Beta 6X
Starsze:
unwa v5e (choć ma trochę szumu), potem v4, v2 duality, i może Kim FT lub zwykły Mel-Kim.
I jak komuś chce się bawić w DAWie, to UVR>Audio Tools>Manual Ensemble jako kombinacje powyższych, lub manualnie w DAWie importując rezultaty i manipulując głośnością dla każdego pliku z modelu, jak Wam się podoba najbardziej. Polecam różnie dla różnych zwrotek i refrenów ustawiać proporcje między modelami.
Używajcie plików bezstratnych, to będą ciut mniej zamulone separacje wychodzić. Poza tym co opisywałem niżej dla konta premium dla Tidala (są czasem darmówki na Pepper) jest jeszcze Lucida.
Grudzień 2022
4, 5, 6 Stem
Demucs 4
(gitara (nieźle), pianino [słabo])
https://colab.research.google.com/drive ... RZpmd_ozu1
GSEP
(gitara (nieźle, czasem nie łapie z intrumentali), pianino [dobrze])
https://studio.gaudiolab.io/
Instrumentale lub wokale:
- GSEP 2 stem (vocals, other)
- UVR5 GUI
https://github.com/Anjok07/ultimatevocalremovergui
Lub przez Colab podmień i to też po instalacji Colaba na GDrive
MDX-UVR Inst 3 model (464)
W paczce do GUI
https://www.buymeacoffee.com/uvr5/vip-m ... structions
(opcjonalna donacja)
lub
- (438) "MDX 2.1" (tylko GUI; Main, obecnie domyślny MDX w GUI)
- (418) (GUI)
(lepsze rezultaty; UVR 5 GUI)
Opcja Ensemble
UVR-MDX-NET Inst 3 (464) i UVR-MDX-NET_Main_438 (main) i htdemucs_ft - Ensemble Algorithm: Average/Average
lub
UVR-MDX-NET Inst 3 jako main model i 7_HP2-UVR jako secondary
Bieżące zestawienie wyników różnych modeli i AI
https://mvsep.com/quality_checker/leaderboard.php
(bardzo zaniża wyniki dla GSEP, prawdopodobnie z powodu zastosowania postprocessingu)
Nie wrzucajcie na GSEP rzeczy w stratnym 48kHz lub opcją URL link do YT, bo wypluwa mp3 128kbps zamiast 320kbps. Dla rzeczy z YT, jak nie macie FLAC/WAV, ściągacie najpierw plik audio jako Opus (inaczej będzie AAC/M4A i 16kHz cap jak w mp3 128kbps), a potem konwertujecie Opus np. Foobarem do 44kHz (wtyczka resampler) i do WAV 32 bit float.
Kick, hihat
Virtual DJ 2023 with Stems 2.0 (darmowy od niedawna dla użytkowników domowych)
(nie zawsze łapie)
FactorSynth (dobre rezultaty dla ścieżki drums z GSEP lub Demucs 4, dodatek dla Ableton, płatne)
Deep Audio RipX (płatne)
Sierpień 2022
viewtopic.php?f=7&t=695&p=713920#p713920
Kwiecień 2022
Jak uzyskać dobrej jakości instrumental z dowolnego utworu
0. Najpierw zaopatrujemy się w bezstratny utwór (mniejsza szansa na przeciekanie wokalu do instrumentala, i lepsza separację instrumentów).
1. Wchodzimy na https://studio.gaudiolab.io/gsep i tam logujemy się przez Google, używamy opcji vocal and others.
*. MDX - najlepiej sprawdza się do separacji wokali. Opcja invert vocal zwraca gotowy plik. Opcja vocal sam wokal. Aby uzyskać invert_vocals potrzebujemy zaznaczonej opcji vocal.
https://colab.research.google.com/drive ... sp=sharing
Link wyżej linuksowe środowisko zdalne Pyhtona a dokładniej tzw. notatnik z następującym po sobie odpowiednio kodem do wykonania.
Klikaj kolejno po wykonaniu guziki w kształcie "Play", pierwszy obok Initialize MDX B, potem otwórz w nowej karcie link do autoryzacji GDrive który wyskoczy, potem wybierz swoje konto, w nowym oknie naciśnij guzik kopiuj obok kodu autoryzacyjnego. Potem naciśnij CTRL+V w głównym oknie w wolnym polu które pojawiło się do wpisania kodu autoryzacyjnego.
Teraz dokonałeś autoryzacji i instalacji MDX na koncie Google. Wejdź do katalogu MDX_Colab\tracks na koncie Google lub w rozwijanej opcji z prawej strony, i skopiuj do niego plik z którego chcesz wyciągnąć instrumental. Po przesłaniu pliku w input track wpisz poprawną nazwę pliku który będziemy przerabiać. Teraz naciśnij guzik "Play" obok input track. Rozpocznie się proces przerabiania utworu, który potrwa do 5 minut albo krócej.
Po zakończeniu, swój plik wynikowy znajdziesz w katalogu MDX\separated
Vocal_inv to instrumental
Vocal jak sama nazwa wskazuje, to sam wokal.
Gdyby efekt końcowy nie był w pełni zadowalający, wypróbuj jeszcze to analogiczne narzędzie oparte o to samo środowisko zdalne. Zasada działania jest ta sama.
* Ultimate Vocal Remover 5
Zachowuje największe spektrum częstotliwości min. dzięki opcji mirroring, choć nie separuje tak dobrze jak GSep. W większości lepiej niż MDX, ale nie zawsze (gorsze spektrum).
https://colab.research.google.com/githu ... arch.ipynb
Dla lepszego efektu możesz zmienić ustawienia domyślne na window size 272 lub 320, włącz TTA i postprocessing.
Oczywiście nie daję gwarancji, że każdy instrumental koniec końców będzie brzmiał dobrze. Są wyjątki jak Noc z Art brut 2, gdzie werble są mało wyraźne.
Tu eksperymentalnie z pomocą przychodzi opcja Ensemble (model cocktail). Polega na łączeniu najlepszych części składowych z więcej niż jednego modelu. Najlepiej do 4. Tutaj możemy zostawić wybrane oba domyślne, do tego wybrać jeszcze domyślny z pola separacji pojedynczego modelu wyżej, i np. 3 band MTSB. Zawsze daje to szansę na inny efekt
Demucs 3.0 -
4 stem
https://colab.research.google.com/drive ... 3qgZoC9bm0
Jeśli chcesz podejrzeć jak niektóre bity są zrobione lub zmiksować je po swojemu, to dobrze trafiłeś. Od tego narzędzia warto zacząć robienie swojego własnego remastera danego utworu. Wokal, bass, bębny, i inne dźwięki (np. gitara, pianino). Celem remasteringu nie warto tego czasem używać tylko jeśli nasz utwór nie ma wokalu. Wtedy częściej lepszy efekty potrafią wychodzić przy obróbce oryginalnej ścieżki. Jednak nie zawsze.
Co prawda Spleeter ma 5 stem i dedykowany model pianino, ale reszta stemów jest bardzo slaba w porównaniu do Demucs jakościowo.
https://www.lalal.ai/
7 stem
Usługa online ograniczenie 10 minut/50MB na plik dla darmowego użytkownika.
Model gitarowy (jest do akustycznej i elektrycznej) piano, vocal, drums, bass, syntezator, lub instrumental+wokal (tu lepiej radzi sobie UVR lub MDX).
“I love demucs 3, although for some specific songs (with a lot of percussions and loops) I still find lalal better
demucs is great at keeping punchy drums, for example hip-hop, rap, house etc songs”
DeMIX Pro V3
Płatny program, 6 stem
https://www.audiosourcere.com/demix-pro ... -software/
https://www.demixer.com/?utm_source=aud ... e-exit-pop
___
Używaj bezstratnych plików
Nie wiem czy masz subskrypcję Spotify z bestratnymi plikami. Marna też szansa, że Spotify ma pliki 24 bit jak na Tidal.
Do pobierania FLAC można wziąć sobie subskrypcję Tidal Hi-Fi z Peppera. Zazwyczaj są promki po parę złotych na kilka miesięcy.
Potem użyć Tidal Downloader Pro (GUI) lub Tidal Downloader (fajna binarka wiersza polecen z instrukcjami) z Githuba (w zależności który aktualnie działa, bo soft jest co jakiś czas łatany). Najlepiej wcześniej zainstalować i zalogować się na Tidalu w wersji Windows, nie UWP, i pomaga to czasem w pobieraniu lepszej jakości plików niż 16 bit. Nie zawsze też master to 16 bit. Czasem to po prostu przekonwertowane MQA ciut gorszej jakości od zwykłego FLAC jak w tym wypadku. Eminem ostatnie Side A/B to napewno 24 bit. Zresztą można sobie sprawdzić jak jest napisane MQA w programie pobierającym i potem we właściwościach pliku lub w MediaInfo. Akurat album Sokoła był w wersji Master MQA, ale 16 bit, i lepiej było wziąć do tego FLAC z innnego źródła. Po prostu się nabrałem. Do tego w tamtym czasie używałem starego modelu UVR 4Band Beta 2 z ustawieniem agresywności dla tego konkretnego modelu (bodaj 0.09). Nowych jeszcze nie było, powinny mniej przeciekać.
Ale co zrobić jak mamy ten uboższy MQA 16 bit i fajnie by było mieć normalny FLAC, a na stronie u samej góry nie ma?
Jest jeszcze taka stronka allflac.com.
Otwiera się na PC konsolę dewelopera, w którejś zakładce wchodzi się w media i otwiera się wtedy podgląd pliku. Wtedy wyskakuje FLAC w media, ten dziwny link trzeba otworzyć w nowej karcie i zacznie się pobieranie. To prawdopodobnie Ruscy, którzy postawili to wszystko na dziko, i żadni artyści nic z dochodu tej stronki nie mają.
Ten FLAC juz powinien być ten właściwy.
Jak jest coś polskiego i nie tylko, to w wyszukiwarce na stronie głównej chomika wyszukujesz cokolwiek, przechodzi do głównej strony wyszukiwania, tam wpisujesz FLAC lub WAV w rozszerzeniu i też sporo rzeczy bywa. Ew. po poprostu lucida, qqdl, albo doubledouble.top.
__
Jak to wrzucać potem na YT w jak najlepszej jakości?
Nie omieszkaj zajrzeć jak to zrobić dobrze tym narzędziem:
https://disk.yandex.com/d/w7gmg_9mKSni2Q
Klikasz download all, wypakowujesz, wrzucasz wszystkie pliki audio do tego folderu u góry, odpalasz skrypt, który konmwertuje wszystkie pliki.
Polega to na tym, że kopiuje strumień audio do kontenera MKV, zamiast go kompresować do innego kodeku audio, do tego używa okładki w folderze pod nazwą 4K.png. Grunt, żeby była minimum w XXX x 1440p, bo inaczej YT będzie rekompresował z AAC do Opusa po pewnym czasie (tu już oszczędzamy jedną rekompresję) i żeby wrzucać do kontenera ten sam plik audio jak tutaj (tu oszczędzamy drugą rekompresję). Możesz przeskalować np. na https://upscalepics.com/ lub ew. Xnview MP jakimś algorytmem (skrót CTRL+Shift+S).
Od teraz masz najlepszą jakość na YT.
Jeżeli masz gotowe wideo zamiast miniatury
PS. W skrypcie do tworzenia wideo są dodane binarki FFMPEG. Jeśli chcesz mieć pewność, że pliki są bezpieczne, możesz ściągnąć FFMPEG z innego źródła, i podmienić tamte 3 pliki exe swoimi pobranymi z sieci.
_________________________________________
Wszystko, co znajduje się poniżej w kwestii 2 stem możecie uznać za nieaktualne, jak również tutaj:
viewtopic.php?f=12&t=5641&p=471823#p471823
________________________________________
Spleeter
Trzy tryby:
Vocals (singing voice) / accompaniment separation (2 stems)
Vocals / drums / bass / other separation (4 stems)
Vocals / drums / bass / piano / other separation (5 stems)
Oryginalna strona narzędzia (obsługa przez linię poleceń):
https://github.com/deezer/spleeter
Ponoć kiepsko działa z metalem. Ogólnie nie w każdym przypadku radzi sobie wystarczająco dobrze, czasem słychać drobne syczenie wokalu w tle instrumentala, jest to też zmienne, do tego góra nie zawsze jest satysfakcjonująca, i trzeba się trochę namęczyć przy jej poprawianiu niekiedy, bo okazjonalnie zanika. Także nie jest to narzędzie idealne, choć ścieżki z wokalami wychodzą nie najgorsze.
Wersja GUI (z interfejsem zamiast linii poleceń) dla Windows:
https://github.com/lazydevyo/SpleetGUI/
(do obu wymagany jest CPU z AVX do wersji tensorflow bez akceleracji GPU lub GPU Nvidia do wersji z akceleracją)
Z GUI czy bez, wymagane środowisko uruchomieniowe Python 3.7:
https://www.python.org/downloads/windows/
Alternatywne narzędzie GUI:
https://github.com/boy1dr/SpleeterGui
Wersje narzędzia do użytku online:
(radzę uważać na te, które nie oferują wyłączenia obcięcia wysokich tonów, nie zawsze też da się bez premium, jak też nie zawsze na wyjściu i l/lub wejściu możemy używać bezstratne pliki - na wersji GUI/oryginalnej w Pythonie. Ograniczenia te nie powinny obowiązywać w wersjach GUI i oryginalnej. Czasem darmowo jest zazwyczaj ograniczenie ilości wgrywanych plików)
https://www.splitter.ai/
(akceptuje na wejściu WAV, MP3, OGG, M4A, WMA i FLAC, darmowo od 0.5 MB do 50MB, do 20 minut; na wyjściu FLAC, chyba że na wejściu jest mp3, to też mp3 będzie na wyjściu (można skonwertować wcześniej taki plik do FLAC jak nam zależy) )
(wysokie tony powyżej 11kHz są domyślnie)
Uważać na wyskakujące okno na wpisanie maila zaraz po zakończeniu wysyłania pliku, i po ew. zamknięciu okna, że strona nam się podoba, bo szybko znika okno na wpisanie maila, wtedy nie trzeba znów wysyłać pliku, ale klikamy na guzik my uploads, i tam pokazują się wszystkie pliki wysłane w tej sesji przeglądarki wraz z postępem. Przesłane na mail stemy po 24h wygasają, i nie są już dostępne do pobrania. W modelu 5 stem czasem działa to praktycznie od razu, raz z pół godziny/+ czekałem, raz w ogłoszonym dniu obłożenia serwerów nawet 8 godzin czekałem na jeden z trzech wysłanych kawałków w danym dniu. Na drugi dzień nawet nie przyszła reszta (w tamtym czasie była akurat zresetowana kolejka dla modelu 5 stem, ale w razie problemów uprzedzam). Z tego samego IP wtedy na inny mail też nic nie przyszło. Jedynie na kolejny z innego IP. Ale na ogół takie rzeczy się nie dzieją. Brak też priorytetowego kolejkowania użytkowników premium na obecną chwilę, ale niekoniecznie widzę, by było potrzebne jeśli działa to i tak odrazu. Przy większym ruchu, bardzo możliwe, że po północy pliki będą przychodzić szybciej.
Wniosek jest taki - w razie problemów z serwerami - wrzuć jeden plik na jednym IP i mailu, a do drugiego pliku zmień IP (VPN) i maila wraz z sesją przeglądarki (tryb incognito), jeśli więcej niż jeden plik nie przyjdzie. Może nie zawsze będzie tak trzeba.
Minusem jest to, że nie da się wgrać wielu plików naraz, ale można odpalić stronę kilka razy jednocześnie, i wrzucić kilka plików jednocześnie. Wtedy wszystkie pokażą się w my uploads. Pliki wynikowe z wetransfer można pobierać na raz w liczbie ok. 5. Powyżej, strona się przywiesi po naciśnięciu download, ale od razu rozpocznie pobierać po zakończeniu pobierania poprzedniego pliku, więc nie zamykajcie takiej karty, która pokazuje wtedy, że coś cały czas ładuje, bo to właśnie oczekiwanie na zakończenie pobierania poprzedniego pliku z tego serwera.
https://ezstems.com/
(darmowo przyjmuje dowolny plik do 10MB, i plik wynikowy może być bezstratny, jest opcja wysokich tonów (czyli 16kHz cut off zamiast 11kHz) pobieranie plików wynikowych z prędkością 128kB/s)
Oczekiwanie na gotowy plik dzieje się na stronie, nie możemy zamknąć okna, lub podać email, jedynie przez premium można pominąć kolejkę. Potrafi to trwać koszmarnie długo co najmniej w modelu 5 stems, czasem nie ma wcale kolejki, a czasem trzy osoby schodzą krótko. To zależy od dnia. W sobotę po południu np. jest luźno, a w niedzielę wieczór raz miałem dramat i 360 osób w kolejce. Jest jeszcze opcja darmowego logowania, gdzie pokazują się ostatnio wygenerowane pliki, ale można je ściągnąć tylko do 6 godzin. PS. Jeżeli masz jakieś krótkie części utworu, które są zniekształcone, i wycisza się na moment głośność, wiem, że metoda na Google Colab jest tego problemu pozbawiona, do tego na ezstems rzadziej te problemy zdarzają się niż wcześniej, niemniej tylko w jednym utworze miałem ten problem jak na razie.
https://thepirat000.github.io/spleeter-api/
(ma opcję wysokich tonów, ale akceptuje tylko mp3 na wejściu i wyjściu chyba to samo)
https://moises.ai/
(można wysłać plik w dowolnej jakości, ale opcja bez obcinania >11kHz w pliku wynikowym jest tylko dla użytkowników premium)
https://melody.ml/
(pozwala wysłać tylko plik mp3, na wyjściu obcina wszystko powyżej 11kHz)
Przyszły mi właściwie od razu gotowe pliki co ciekawe. Czyli mała kolejka.
Post niżej o Google Colab
https://www.lalal.ai/
Inna metoda niż Spleeter. Umożliwia przeprocesować darmowo tylko 3 utwory (max. 10 min). Wydobywa tylko wokal i instrumental (czyli tylko 2 stemy zamiast 4 lub 5 jak umożliwia opcjonalnie Spleeter). Zaletą w porównaniu do Spleetera jest to, że zamiast ucinać plik do 32kHz, ucina wszystko do 44kHz, i pozostawia plik jako np. 24 bit, jeśli taki był źródłowo.
Więcej informacji technicznych i porównań
https://medium.com/lalal-ai-official-bl ... f4211d40c0
Więcej informacji technicznych i porównań
https://medium.com/lalal-ai-official-bl ... f4211d40c0
Jak wynika z powyższego porównania, subiektywnie jakość obu modeli Spleeter-16kHz (32kHz) i LALAL.AI (prawdopodobnie w przypadku instrumentala) jest porównywalna, jednak przy zastosowaniu odpowiedniego miksowania wszystkich Stemów niż tylko używając pojedynczej ścieżki, końcowo Spleeter może zabrzmieć lepiej. Po takim zabiegu i użyciu różnych wtyczek, u mnie na spektogramie na plikach jest już w takim przypadku 44kHz.