ŚLIZGAWKA

Lipiec 2026

Ostatnia wersja aplikacji UVR ze wsparciem architektury Mel/BS-Roformer. Patch dla kart RTX 5000 w sekcji issues.
W UVR możecie używać poniższych modeli do instrumentali używając akceleracji GPU najlepiej NVIDIA, ale także AMD i Intel. (Stare linki do modeli jeśli jakiegoś nie ma w Download Center w UVR) albo separować online w darmowym Google Colabie z różnymi modelami
(są już tam nowsze modele i aktualne linki do pobrania są w kodzie tego Colaba jak klikniecie dwa razy).
A także za darmo (z płatnymi, szybszymi planami) na mvsep.com (zarejestrowani, na telefonie w aplikacji, a zwłaszcza premium mają szybsze kolejki) i uvronline.app, gdzie znajdziecie większość z modeli niżej.

Z nowszych polecanych do instrumentali (także na stronce Huggingface twórców modeli):

Becruily Deux (w większości przypadków daje conajmniej akceptowalne rezultaty, ale jest ciut zamulony), Unwa Resurrection inst (czasem bardziej szumi, starszy model), Gabox Inst_Gabox_FV8 (czasem bardziej destruktywny).
Unwa HyperACEv2 (nie działa w UVR, trochę szumi), Gabox FlowersV10 (pełny, bardziej szumi), Unwa Leap Xe (czasem przeciekają podbitki, może być trochę lepszy od Deux), Gabox fv8n (pełny, ale szumi)
Starsze
Unwa V1e+ (Ressurrection raczej lepszy), Gabox instv7 (starszy już), Gabox Inst_Fv8 (też)
Gabox FV7B, Gabox FV7Z (pozbawione szumu, ale zjadają hihaty, destruktywne)
Phase fixer z becruily voc i inst (czasem najlepsza alternatywa, by pozbyć się kompletnie szumów, ale trochę zamula)

Starsze z opisami:
- INST-Mel-Becruily (chyba najlepsze instrumentale są z tego modelu teraz, podobne rezultaty co v1 niżej, ale mniej szumu - czasem model Mel Denoise i Mel debleed mogą się przydać do doczyszczenia zwłaszcza bez phase fixera) - Phase Fixer Colab (używa fazy z wariantu wokalowego dla mniejszego szumu po wokalach, choć ciut zamula rezultat; utworzyć ręcznie foldery wejściowe i wyjściowe na GDrive przed separacją, bo inaczej się wywali separacja)
- Mel Unwa inst v1e/v1/v2 (starsze mniej zamulone, ale mniej zbalansowane - podałem najpierw wedle tego gdzie najwięcej jest szumu z wokali, ale i pełności z instrumentala, aż do coraz większego zamulenia)
Phase fixer też naprawia trochę szum tych modeli z automatu (tutaj sam prosty skrypt pythonowski do tego)

Modele wokalowe do instrumentali (bardziej zamulone od dedykowanych instrumentalowych, mogą mieć czasem mniej szumów)
- Unwa Big Beta 5e FT (nie ma takiego przeciekania wokali jak w unwa inst wyżej)
- Mel Kim FT by Unwa
- Mel Kim (kiedyś najbezpieczniejszy - jeśli przeciekanie wokali nadal jest za duże, bardziej zamulony, są już ogólnie lepsze)

- viperx 1297 (bywa bardziej zamulony od 5e, czasem zostawia oddechy czy fragmenty skreczy) / BS-Roformer Large by Unwa (czasem mniej przeciekania, ale bardziej destruktywny)
- MDX23 Colab - połączenie modeli viperx, Kim Mel i MDX23C HQ (chyba już przestało to działać)

- Modele dostępne tylko online na MVSEP:
a) domyślne dwustemowe Mel-Roformer i BS-Roformer (powinny mniej przeciekać od Mel-Kim i viperx, ale bez premium utykasz tam w kolejce jak do lekarza na NFZ, z samym zalogowanym kontem tylko troszkę lepiej - czasem wieczorami czy nocami jest mniejsza kolejka, czy może rano).
b) Ensemble 2 stem (tylko premium) - najmniej przeciekania wokali na obecną chwilę, ale również najbardziej wyprane z życia podkłady.
c) Multistem Esnemble (tylko premium) - jak macie już dobrze brzmiący instrumental wcześniej zrobiony np. innymi metodami wyżej, to całkiem dobrze sobie tamtejsze modele radzą. Są też osobne do gitar, drumsów, pianina. Można obejść premium stosując stem other wyizolowany z np. MDX23 Colab który linkowałem, ale tam też warto wyciągnąć dobrze brzmiącego instrumentala czasem innymi metodami.

UVR wspiera akcelerację kart Nvidia, AMD i Intel (zarówno ARC jak zintegrowane). Min. 4GB VRAM zalecane (wtedy czasem w pliku yaml danego modelu w \models\MDX_Net_Models\model_data\mdx_c_configs na samym końcu trzeba obniżyć wtedy chunk_size do np. 112455 lu wyżej (dawniej dim_t 256/301/201), bo inaczej się wykrzaczy). Generalnie karty Nvidii działają w UVR lepiej, chyba że używacie ROCm na WSL na kartach AMD używając MSST. Roformery zajmują o wiele więcej czasu w separacji od dawnych MDX-Net jak HQ_5.

Są jeszcze inne fajne modele (choć mają więcej szumu lub przeciekania z wokali, ale są szybsze):
- MDX-Net HQ_5, 4 i 3
(HQ_5 są lepsze do wokali, instrumentale wychodzą czasem trochę zamulone). Czasem też model inst 3 potrafi się do czegoś nadawać, ale to już model ograniczony do 17.7kHz i ma więcej szumu od HQ_5. Colab
__________
GSEP (od jakiegoś czasu już płatny)
https://studio.gaudiolab.io/
Całkiem nieźle czasem potrafił działać, jak już wszystko zawiodło, ale teraz raczej zostali z tyłu.
2-6 stem

BS-Roformer 6 stem SW - dostępne w Colabie na samej górze -
z darmowych rzeczy, lepsze od zwykłego Demucsa 4 ft i MDX23: Colab (popsute)
(po zaznaczeniu opcji dla 4 stem)
(tylko czasem warto zapodać już dobrze wcześniej wysyparowany instrumental z modeli do instrumentali, bo tu mogą wychodzić trochę bardziej zamulone niż np. inst v1e/v1/v2)

Do dalszej separacji drumsów model Drumsep MDX23C 5s jest dobry w Colabie wcześniej na górze.

Do samych wokali stare modele w UVR były dobre kiedyś np.
Fv4, Resurrection voc, Revive 3e, Beta 6X
Starsze:
unwa v5e (choć ma trochę szumu), potem v4, v2 duality, i może Kim FT lub zwykły Mel-Kim.

(ale są już nowsze, nawet Deux, który jest podwójnym modelem, nie zagłebiam się).

I jak komuś chce się bawić w DAWie, to UVR>Audio Tools>Manual Ensemble jako kombinacje powyższych, lub manualnie w DAWie importując rezultaty i manipulując głośnością dla każdego pliku z modelu, jak Wam się podoba najbardziej. Polecam różnie dla różnych zwrotek i refrenów ustawiać proporcje między modelami.

Używajcie plików bezstratnych, to będą ciut mniej zamulone separacje wychodzić. Poza tym co opisywałem niżej dla konta premium dla Tidala (są czasem darmówki na Pepper) jest jeszcze Lucida.

Grudzień 2022

4, 5, 6 Stem

Demucs 4
(gitara (nieźle), pianino [słabo])
https://colab.research.google.com/drive ... RZpmd_ozu1

GSEP
(gitara (nieźle, czasem nie łapie z intrumentali), pianino [dobrze])
https://studio.gaudiolab.io/

Instrumentale lub wokale:
- GSEP 2 stem (vocals, other)

- UVR5 GUI
https://github.com/Anjok07/ultimatevocalremovergui
Lub przez Colab podmień i to też po instalacji Colaba na GDrive

MDX-UVR Inst 3 model (464)
W paczce do GUI
https://www.buymeacoffee.com/uvr5/vip-m ... structions
(opcjonalna donacja)

lub
- (438) "MDX 2.1" (tylko GUI; Main, obecnie domyślny MDX w GUI)

- (418) (GUI)

(lepsze rezultaty; UVR 5 GUI)
Opcja Ensemble
UVR-MDX-NET Inst 3 (464) i UVR-MDX-NET_Main_438 (main) i htdemucs_ft - Ensemble Algorithm: Average/Average

lub
UVR-MDX-NET Inst 3 jako main model i 7_HP2-UVR jako secondary

Bieżące zestawienie wyników różnych modeli i AI
https://mvsep.com/quality_checker/leaderboard.php
(bardzo zaniża wyniki dla GSEP, prawdopodobnie z powodu zastosowania postprocessingu)

Nie wrzucajcie na GSEP rzeczy w stratnym 48kHz lub opcją URL link do YT, bo wypluwa mp3 128kbps zamiast 320kbps. Dla rzeczy z YT, jak nie macie FLAC/WAV, ściągacie najpierw plik audio jako Opus (inaczej będzie AAC/M4A i 16kHz cap jak w mp3 128kbps), a potem konwertujecie Opus np. Foobarem do 44kHz (wtyczka resampler) i do WAV 32 bit float.

Kick, hihat

Virtual DJ 2023 with Stems 2.0 (darmowy od niedawna dla użytkowników domowych)
(nie zawsze łapie)

FactorSynth (dobre rezultaty dla ścieżki drums z GSEP lub Demucs 4, dodatek dla Ableton, płatne)

Deep Audio RipX (płatne)

Sierpień 2022
viewtopic.php?f=7&t=695&p=713920#p713920

Kwiecień 2022

Jak uzyskać dobrej jakości instrumental z dowolnego utworu

0. Najpierw zaopatrujemy się w bezstratny utwór (mniejsza szansa na przeciekanie wokalu do instrumentala, i lepsza separację instrumentów).

1. Wchodzimy na https://studio.gaudiolab.io/gsep i tam logujemy się przez Google, używamy opcji vocal and others.

*. MDX - najlepiej sprawdza się do separacji wokali. Opcja invert vocal zwraca gotowy plik. Opcja vocal sam wokal. Aby uzyskać invert_vocals potrzebujemy zaznaczonej opcji vocal.

https://colab.research.google.com/drive ... sp=sharing

Link wyżej linuksowe środowisko zdalne Pyhtona a dokładniej tzw. notatnik z następującym po sobie odpowiednio kodem do wykonania.

Klikaj kolejno po wykonaniu guziki w kształcie "Play", pierwszy obok Initialize MDX B, potem otwórz w nowej karcie link do autoryzacji GDrive który wyskoczy, potem wybierz swoje konto, w nowym oknie naciśnij guzik kopiuj obok kodu autoryzacyjnego. Potem naciśnij CTRL+V w głównym oknie w wolnym polu które pojawiło się do wpisania kodu autoryzacyjnego.

Teraz dokonałeś autoryzacji i instalacji MDX na koncie Google. Wejdź do katalogu MDX_Colab\tracks na koncie Google lub w rozwijanej opcji z prawej strony, i skopiuj do niego plik z którego chcesz wyciągnąć instrumental. Po przesłaniu pliku w input track wpisz poprawną nazwę pliku który będziemy przerabiać. Teraz naciśnij guzik "Play" obok input track. Rozpocznie się proces przerabiania utworu, który potrwa do 5 minut albo krócej.

Po zakończeniu, swój plik wynikowy znajdziesz w katalogu MDX\separated

Vocal_inv to instrumental
Vocal jak sama nazwa wskazuje, to sam wokal.

Gdyby efekt końcowy nie był w pełni zadowalający, wypróbuj jeszcze to analogiczne narzędzie oparte o to samo środowisko zdalne. Zasada działania jest ta sama.

* Ultimate Vocal Remover 5
Zachowuje największe spektrum częstotliwości min. dzięki opcji mirroring, choć nie separuje tak dobrze jak GSep. W większości lepiej niż MDX, ale nie zawsze (gorsze spektrum).

https://colab.research.google.com/githu ... arch.ipynb

Dla lepszego efektu możesz zmienić ustawienia domyślne na window size 272 lub 320, włącz TTA i postprocessing.

Oczywiście nie daję gwarancji, że każdy instrumental koniec końców będzie brzmiał dobrze. Są wyjątki jak Noc z Art brut 2, gdzie werble są mało wyraźne.

Tu eksperymentalnie z pomocą przychodzi opcja Ensemble (model cocktail). Polega na łączeniu najlepszych części składowych z więcej niż jednego modelu. Najlepiej do 4. Tutaj możemy zostawić wybrane oba domyślne, do tego wybrać jeszcze domyślny z pola separacji pojedynczego modelu wyżej, i np. 3 band MTSB. Zawsze daje to szansę na inny efekt

Demucs 3.0 -
4 stem
https://colab.research.google.com/drive ... 3qgZoC9bm0

Jeśli chcesz podejrzeć jak niektóre bity są zrobione lub zmiksować je po swojemu, to dobrze trafiłeś. Od tego narzędzia warto zacząć robienie swojego własnego remastera danego utworu. Wokal, bass, bębny, i inne dźwięki (np. gitara, pianino). Celem remasteringu nie warto tego czasem używać tylko jeśli nasz utwór nie ma wokalu. Wtedy częściej lepszy efekty potrafią wychodzić przy obróbce oryginalnej ścieżki. Jednak nie zawsze.

Co prawda Spleeter ma 5 stem i dedykowany model pianino, ale reszta stemów jest bardzo slaba w porównaniu do Demucs jakościowo.

https://www.lalal.ai/
7 stem
Usługa online ograniczenie 10 minut/50MB na plik dla darmowego użytkownika.
Model gitarowy (jest do akustycznej i elektrycznej) piano, vocal, drums, bass, syntezator, lub instrumental+wokal (tu lepiej radzi sobie UVR lub MDX).
“I love demucs 3, although for some specific songs (with a lot of percussions and loops) I still find lalal better
demucs is great at keeping punchy drums, for example hip-hop, rap, house etc songs”

DeMIX Pro V3
Płatny program, 6 stem
https://www.audiosourcere.com/demix-pro ... -software/
https://www.demixer.com/?utm_source=aud ... e-exit-pop

___
Używaj bezstratnych plików

Nie wiem czy masz subskrypcję Spotify z bestratnymi plikami. Marna też szansa, że Spotify ma pliki 24 bit jak na Tidal.
Do pobierania FLAC można wziąć sobie subskrypcję Tidal Hi-Fi z Peppera. Zazwyczaj są promki po parę złotych na kilka miesięcy.
Potem użyć Tidal Downloader Pro (GUI) lub Tidal Downloader (fajna binarka wiersza polecen z instrukcjami) z Githuba (w zależności który aktualnie działa, bo soft jest co jakiś czas łatany). Najlepiej wcześniej zainstalować i zalogować się na Tidalu w wersji Windows, nie UWP, i pomaga to czasem w pobieraniu lepszej jakości plików niż 16 bit. Nie zawsze też master to 16 bit. Czasem to po prostu przekonwertowane MQA ciut gorszej jakości od zwykłego FLAC jak w tym wypadku. Eminem ostatnie Side A/B to napewno 24 bit. Zresztą można sobie sprawdzić jak jest napisane MQA w programie pobierającym i potem we właściwościach pliku lub w MediaInfo. Akurat album Sokoła był w wersji Master MQA, ale 16 bit, i lepiej było wziąć do tego FLAC z innnego źródła. Po prostu się nabrałem. Do tego w tamtym czasie używałem starego modelu UVR 4Band Beta 2 z ustawieniem agresywności dla tego konkretnego modelu (bodaj 0.09). Nowych jeszcze nie było, powinny mniej przeciekać.

Ale co zrobić jak mamy ten uboższy MQA 16 bit i fajnie by było mieć normalny FLAC, a na stronie u samej góry nie ma?
Jest jeszcze taka stronka allflac.com.
Otwiera się na PC konsolę dewelopera, w którejś zakładce wchodzi się w media i otwiera się wtedy podgląd pliku. Wtedy wyskakuje FLAC w media, ten dziwny link trzeba otworzyć w nowej karcie i zacznie się pobieranie. To prawdopodobnie Ruscy, którzy postawili to wszystko na dziko, i żadni artyści nic z dochodu tej stronki nie mają.
Ten FLAC juz powinien być ten właściwy.
Jak jest coś polskiego i nie tylko, to w wyszukiwarce na stronie głównej chomika wyszukujesz cokolwiek, przechodzi do głównej strony wyszukiwania, tam wpisujesz FLAC lub WAV w rozszerzeniu i też sporo rzeczy bywa. Ew. po poprostu lucida, qqdl, albo doubledouble.top.

__
Jak to wrzucać potem na YT w jak najlepszej jakości?

Nie omieszkaj zajrzeć jak to zrobić dobrze tym narzędziem:
https://disk.yandex.com/d/w7gmg_9mKSni2Q

Klikasz download all, wypakowujesz, wrzucasz wszystkie pliki audio do tego folderu u góry, odpalasz skrypt, który konmwertuje wszystkie pliki.
Polega to na tym, że kopiuje strumień audio do kontenera MKV, zamiast go kompresować do innego kodeku audio, do tego używa okładki w folderze pod nazwą 4K.png. Grunt, żeby była minimum w XXX x 1440p, bo inaczej YT będzie rekompresował z AAC do Opusa po pewnym czasie (tu już oszczędzamy jedną rekompresję) i żeby wrzucać do kontenera ten sam plik audio jak tutaj (tu oszczędzamy drugą rekompresję). Możesz przeskalować np. na https://upscalepics.com/ lub ew. Xnview MP jakimś algorytmem (skrót CTRL+Shift+S).

Od teraz masz najlepszą jakość na YT.
Jeżeli masz gotowe wideo zamiast miniatury
PS. W skrypcie do tworzenia wideo są dodane binarki FFMPEG. Jeśli chcesz mieć pewność, że pliki są bezpieczne, możesz ściągnąć FFMPEG z innego źródła, i podmienić tamte 3 pliki exe swoimi pobranymi z sieci.

_________________________________________

Wszystko, co znajduje się poniżej w kwestii 2 stem możecie uznać za nieaktualne, jak również tutaj:
viewtopic.php?f=12&t=5641&p=471823#p471823

________________________________________

Spleeter

Trzy tryby:

Vocals (singing voice) / accompaniment separation (2 stems)
Vocals / drums / bass / other separation (4 stems)
Vocals / drums / bass / piano / other separation (5 stems)

Oryginalna strona narzędzia (obsługa przez linię poleceń):
https://github.com/deezer/spleeter

Ponoć kiepsko działa z metalem. Ogólnie nie w każdym przypadku radzi sobie wystarczająco dobrze, czasem słychać drobne syczenie wokalu w tle instrumentala, jest to też zmienne, do tego góra nie zawsze jest satysfakcjonująca, i trzeba się trochę namęczyć przy jej poprawianiu niekiedy, bo okazjonalnie zanika. Także nie jest to narzędzie idealne, choć ścieżki z wokalami wychodzą nie najgorsze.

Wersja GUI (z interfejsem zamiast linii poleceń) dla Windows:
https://github.com/lazydevyo/SpleetGUI/

(do obu wymagany jest CPU z AVX do wersji tensorflow bez akceleracji GPU lub GPU Nvidia do wersji z akceleracją)

Z GUI czy bez, wymagane środowisko uruchomieniowe Python 3.7:
https://www.python.org/downloads/windows/

Alternatywne narzędzie GUI:
https://github.com/boy1dr/SpleeterGui

Wersje narzędzia do użytku online:
(radzę uważać na te, które nie oferują wyłączenia obcięcia wysokich tonów, nie zawsze też da się bez premium, jak też nie zawsze na wyjściu i l/lub wejściu możemy używać bezstratne pliki - na wersji GUI/oryginalnej w Pythonie. Ograniczenia te nie powinny obowiązywać w wersjach GUI i oryginalnej. Czasem darmowo jest zazwyczaj ograniczenie ilości wgrywanych plików)

https://www.splitter.ai/
(akceptuje na wejściu WAV, MP3, OGG, M4A, WMA i FLAC, darmowo od 0.5 MB do 50MB, do 20 minut; na wyjściu FLAC, chyba że na wejściu jest mp3, to też mp3 będzie na wyjściu (można skonwertować wcześniej taki plik do FLAC jak nam zależy) )
(wysokie tony powyżej 11kHz są domyślnie)
Uważać na wyskakujące okno na wpisanie maila zaraz po zakończeniu wysyłania pliku, i po ew. zamknięciu okna, że strona nam się podoba, bo szybko znika okno na wpisanie maila, wtedy nie trzeba znów wysyłać pliku, ale klikamy na guzik my uploads, i tam pokazują się wszystkie pliki wysłane w tej sesji przeglądarki wraz z postępem. Przesłane na mail stemy po 24h wygasają, i nie są już dostępne do pobrania. W modelu 5 stem czasem działa to praktycznie od razu, raz z pół godziny/+ czekałem, raz w ogłoszonym dniu obłożenia serwerów nawet 8 godzin czekałem na jeden z trzech wysłanych kawałków w danym dniu. Na drugi dzień nawet nie przyszła reszta (w tamtym czasie była akurat zresetowana kolejka dla modelu 5 stem, ale w razie problemów uprzedzam). Z tego samego IP wtedy na inny mail też nic nie przyszło. Jedynie na kolejny z innego IP. Ale na ogół takie rzeczy się nie dzieją. Brak też priorytetowego kolejkowania użytkowników premium na obecną chwilę, ale niekoniecznie widzę, by było potrzebne jeśli działa to i tak odrazu. Przy większym ruchu, bardzo możliwe, że po północy pliki będą przychodzić szybciej.

Wniosek jest taki - w razie problemów z serwerami - wrzuć jeden plik na jednym IP i mailu, a do drugiego pliku zmień IP (VPN) i maila wraz z sesją przeglądarki (tryb incognito), jeśli więcej niż jeden plik nie przyjdzie. Może nie zawsze będzie tak trzeba.
Minusem jest to, że nie da się wgrać wielu plików naraz, ale można odpalić stronę kilka razy jednocześnie, i wrzucić kilka plików jednocześnie. Wtedy wszystkie pokażą się w my uploads. Pliki wynikowe z wetransfer można pobierać na raz w liczbie ok. 5. Powyżej, strona się przywiesi po naciśnięciu download, ale od razu rozpocznie pobierać po zakończeniu pobierania poprzedniego pliku, więc nie zamykajcie takiej karty, która pokazuje wtedy, że coś cały czas ładuje, bo to właśnie oczekiwanie na zakończenie pobierania poprzedniego pliku z tego serwera.

https://ezstems.com/
(darmowo przyjmuje dowolny plik do 10MB, i plik wynikowy może być bezstratny, jest opcja wysokich tonów (czyli 16kHz cut off zamiast 11kHz) pobieranie plików wynikowych z prędkością 128kB/s)
Oczekiwanie na gotowy plik dzieje się na stronie, nie możemy zamknąć okna, lub podać email, jedynie przez premium można pominąć kolejkę. Potrafi to trwać koszmarnie długo co najmniej w modelu 5 stems, czasem nie ma wcale kolejki, a czasem trzy osoby schodzą krótko. To zależy od dnia. W sobotę po południu np. jest luźno, a w niedzielę wieczór raz miałem dramat i 360 osób w kolejce. Jest jeszcze opcja darmowego logowania, gdzie pokazują się ostatnio wygenerowane pliki, ale można je ściągnąć tylko do 6 godzin. PS. Jeżeli masz jakieś krótkie części utworu, które są zniekształcone, i wycisza się na moment głośność, wiem, że metoda na Google Colab jest tego problemu pozbawiona, do tego na ezstems rzadziej te problemy zdarzają się niż wcześniej, niemniej tylko w jednym utworze miałem ten problem jak na razie.

https://thepirat000.github.io/spleeter-api/
(ma opcję wysokich tonów, ale akceptuje tylko mp3 na wejściu i wyjściu chyba to samo)

https://moises.ai/
(można wysłać plik w dowolnej jakości, ale opcja bez obcinania >11kHz w pliku wynikowym jest tylko dla użytkowników premium)

https://melody.ml/
(pozwala wysłać tylko plik mp3, na wyjściu obcina wszystko powyżej 11kHz)
Przyszły mi właściwie od razu gotowe pliki co ciekawe. Czyli mała kolejka.

Post niżej o Google Colab

https://www.lalal.ai/
Inna metoda niż Spleeter. Umożliwia przeprocesować darmowo tylko 3 utwory (max. 10 min). Wydobywa tylko wokal i instrumental (czyli tylko 2 stemy zamiast 4 lub 5 jak umożliwia opcjonalnie Spleeter). Zaletą w porównaniu do Spleetera jest to, że zamiast ucinać plik do 32kHz, ucina wszystko do 44kHz, i pozostawia plik jako np. 24 bit, jeśli taki był źródłowo.
Więcej informacji technicznych i porównań
https://medium.com/lalal-ai-official-bl ... f4211d40c0
Więcej informacji technicznych i porównań
https://medium.com/lalal-ai-official-bl ... f4211d40c0
Jak wynika z powyższego porównania, subiektywnie jakość obu modeli Spleeter-16kHz (32kHz) i LALAL.AI (prawdopodobnie w przypadku instrumentala) jest porównywalna, jednak przy zastosowaniu odpowiedniego miksowania wszystkich Stemów niż tylko używając pojedynczej ścieżki, końcowo Spleeter może zabrzmieć lepiej. Po takim zabiegu i użyciu różnych wtyczek, u mnie na spektogramie na plikach jest już w takim przypadku 44kHz.

Milion lat temu testowałem Melodyne, chyba pierwszą wersję. Nie dawało to żadnych sensowych rezultatów. @Nerwowy które z tych narzędzi polecasz? Odpalałeś tego Spleetera już?

ja przed chwilą korzystałem z tego: https://www.splitter.ai/ , efekty raczej mizerne na randomowym bicie, który przesłałem.

@BoomGap U siebie na kanale Old Beats Refreshed wstawiałem dwa instrumentale z tego po obróbce. Do tego celu sprawdza się tak żeby Polska zginęła. Bez obróbki średnio. Najbardziej pożytecznie sprawdza się raczej przy wydobywaniu wokali.
Pozostałe stemy są jednak kiepskiej jakości.

Pod warunkiem, że dane narzędzie nie wycina wysokich tonów, to wszystkie są oparte o to samo, więc brzmią identycznie (pomijając kompresję).

Fajnie to działa, przyda się kiedy ćwiczę sobie odwzorowując różne beaty

Jeszcze jedna ciekawostka. Po co wyodrębniać samemu wokale średniej jakości przez AI, skoro czasem bywały wypuszczane oficjalnie.

Otóż są darmowe i płatne bazy z accapellami w wysokiej jakości. Wymienię kilka:

https://www.voclr.it/ (darmowe)
https://www.acapellas4u.co.uk/ (darmowo 30 na miesiąc; system ocen)

https://splice.com/features/sounds?utm_ ... jJgxAoMCPQ (14 dni trial, strona posiada różne wokale, sample, pętle i inne)
https://www.loopcloud.com/cloud/subscriptions/plans (free 5 na dzień lub trial, strona posiada różne wokale, sample, pętle i inne)

Ja to wyciągałem acapelle wycinając loop z bitu, stosując invert i podstawianie pod utwór. W zależności od aranżu utworu i kilku tam innych czynników czasem udało się tam, chociażby wokal z "Myśl pozytywnie" Sokola,kilka utworow Gospela i jeden Zkibwoya.

Jest jeszcze wtyczka od iZotope do izolowania acapelli/instrumentalu, RX7:

A nawet RX8

Propsy, camzatizbak. Ja tak czasem podbijam górę jak mam tylko zmiksowany cały track i na nim pracuję, biorąc właśnie loop i aranżując go w całej ścieżce. Ściszam go, i biorę jakiegoś excitera i nie rozwalam w ten sposób całego pasma w tracku, np. wokali zbyt mocną saturacją.
Ostatnio też myślałem, czy by nie wyciągnąć zwyczajnie śladów ze Spleetera i w podobny sposób rozwiązać problem trochę łatwiej, o ile ślady będą wystarczająco dobre.

Inwersją/przeciwfazą można też wyciągnąć intrumental z kawałka, jeśli posiadamy osobno ścieżkę z wokalem, ale jakość obu stemów powinna być raczej bezstratna, bo wtedy i tak pozostanie trochę wokalu, który można trochę wtyczkami poprzykrywać.

Widziałem porównania Spleetera z RX8 w kwestii wyciągania stemów czy wokalu, i lepiej dawał radę jednak ten pierwszy. Choć tu też jest podobny problem - pozostaje czasem nawet jeszcze więcej wokalu jak przy inwersji, i ostatnio jak to robiłem, to jak nie było loopa z intrumentalem w tracku, to wrzucałem do Spleetera, a potem wycinałem loop z fragmentu, na którym były skrecze. Jakoś łatwiej to było potem obrobić i trochę wyciszyć te resztki wokalu, bo metoda idealna nie jest.
Po jednym intrumentalu z przeciwfazy i ze Spletera znajdziecie u mnie dla przykładu, jak to brzmi.

Dotarłem do ciekawej informacji na Twitterze, że wersja Spleetera na ezstems została zaktualizowana w pażdzierniku, i może zwracać lepsze efekty niż wcześniej. Nie da się wykluczyć, że splitter.ai dostało podobny update, bo też co rusz coś tam się dzieje.
Właściwie na głównej stronie projektu na githubie Deezera coś tam się co jakiś czas zmienia, a na pewno zmieniło kilka razy od grudnia zeszłego roku, kiedy pojawiła się pierwsza wersja.

Z dalszych wieści -
Spleeter został zaimplementowany do nowego oprogramowania:

iZotope - in its Music Rebalance feature within RX 8 (nie mylić z RX 7, w którym był jeszcze stary ficzer, który działał gorzej od Spleetera)
SpectralLayers - in its Unmix feature in SpectralLayers 7
Acon Digital - within Acoustica 7
VirtualDJ - in their stem isolation feature (czyżby nowe wersje VDJ przestały obsługiwać CPU bez AVX, czy tylko ta funkcja?)
Algoriddim - in their NeuralMix and djayPRO app suite
Ableton - rozszerzenie spleeter4max (github)

Dodano po 1 dniu 1 godzinie 49 minutach 56 sekundach:
Bank rozbity.

Google Colab
Wyobraźcie sobie, że leżycie sobie z tabletem lub smartfonem na plaży, i zamarzyło Wam się posłuchać, jak brzmi Wasz ulubiony kawałek w modelu 2, 4, 5 stem, ale jesteście 360 osobą w kolejce do darmowego przetwarzania na ezstems.com czy splitter.ai i nie chcecie czekać.

Google Colab pozwala natywnie, ale w chmurze, odpalić Spleeter używając linii poleceń wykonywanych zdalnie przez Google.
Świetne też dla osób jak nie macie w PC CPU z AVX lub nie macie karty Nvidii, i kiedy Spleeter Wam po prostu nie zadziała.
Zatem - możecie to samo zrobić na komputerze u Google w dowolnym miejscu na ziemi, z poziomu przeglądarki zamiast na swojej maszynie.

Tu jest fajny tutorial:
https://audiobazar.pl/deezer-spleeter-j ... od-muzyki/
Proces z jednym zastrzeżeniem, jest mega prosty. Nie zapomnijcie tylko odpalić wszystkich linijek w install spleeter (np. import audio).
Kontra tutorial zmieniła się tylko wyjściowa ścieżka pliku na "tmp/separated_audio/[filename]/" zamiast "output/[filename]" (wszystko już naniesione w moim projekcie w linku niżej).

Zmodyfikowałem tamtejszy plik Google Colab, i poza 2 stems 11kHz, znajdziecie tam też modele 2, 4, 5 stems 16kHz:
https://colab.research.google.com/drive ... sp=sharing
(edit. Colab już nie działa)

Spinacie całość z Google Drive lub musicie tam podać bezpośredni link do pliku audio na serwerze. Nie może być to hosting w stylu mega (pewnie się da, ale musiałbym znaleźć osobny skrypt do tego).
Np.
http://nerwowy.ct8.pl/eminem-relapse.mp3

Powinno się dać wgrać w ten sposób taki plik po założeniu konta i nowego projektu na GitHub i będzie dokładnie to samo co niżej, i może nawet szybciej. Alternatywnie:

1. Możecie założyć konto na ct8.pl (dają 3GB darmowego hostingu na stronę)
2. Utworzyć stronę WWW w panelu użytkownika (adres panelu przyjdzie na mail)
3. Potem w File Manager dodać plik do katalogu domains/[nazwa].ct8.pl/public_html
(to samo można zrobić w jakimś mobilnym kliencie FTP, lub na PC np. FileZilla)
4. Potem ścieżka pliku będzie taka:
http://[nazwaużytkownika].ct8.pl/[nazwapliku.mp3]
Np.
http://nerwowy.ct8.pl/eminem-relapse.mp3
(to tylko przykład)

Jeśli plik będzie miał spacje, pozbądźcie się ich, lub wygenerujcie nazwę pliku z File Managera, zmieniając tylko ścieżkę do pliku na http://[nazwaużytkownika].ct8.pl. Link z File Managera każe się Wam logować do FTP za każdym razem, a tego chyba skrypt na Google Collab nie przełknie i link musi być bezpośredni, ogólnodostępny, bez konieczności logowania.

Jak już przebrniecie przez całość, to wygenerowanie stemów, a następnie plików wynikowych do pobrania, to kwestia minuty. Włączyłem dodatkowo akcelerację GPU, i jest jeszcze szybciej. 4 stem separuje w kilka sekund
__________________________________________________________________________
Remastering w oparciu o gotowe stemy ze Spleetera vs oryginalny zmiksowany plik.
__________________________________________________________________________

Pracując nad plikami, zazwyczaj bardzo głęboko (z różnymi skutkami) ingeruję w dźwięk i brzmienie plików, które biorę na warsztat.
Chciałbym podzielić się kilkoma spostrzeżeniami w pracy ze stemami ze Spleetera vs wcześniej pracując na zwykłych oryginalnych zmiksowanych plikach.

Spleeter wcale nie okazał się lekiem na całe zło w problemach przy osiąganiu zadowalającego efektu końcowego takich zabiegów jak ogólnopojęty remastering. Przynajmniej nie przy wszystkich trackach, z jakimi się spotykałem. Te ścieżki ze Spleetera są jednak obcinane do 16KHz. Nie zawsze udało się uzyskać odpowiedni poziom saturacji ścieżek, i kończyło się czasem na tym, że oryginalny nie rozmiksowany plik miał więcej góry, i mimo na ogół lepszej separacji, nie było sensu używać stemów ze Spleetera, bo góry było w nim za mało. Zatem sprawa definitywnie nie była zerojedynkowa, albo też ja już nie mogłem sobie na pewnym etapie pracy z plikami pozwolić na zbyt głęboką ingerencję w jedną z warstw miksu, która w początkowej fazie pracy nad zmiksowanymi plikami już była gotowa, bo pomysł na Spleetera pojawił się pod koniec jednego z prawie gotowych projektów, który został przebudowany. Inaczej znów zajęłoby to zbyt wiele czasu, ale raczej po prostu te stemy Spleetera były za słabej jakości. Ale nie wszystkie. Trzeba było miejscami bardzo kreatywnie podejść do miksu, i potrafiło to zwrócić bardzo ciekawe efekty, i było warto bawić się niekiedy ze Spleeterem. Jeżeli celujecie w dociąganiu głośności do 0dB jak to się robi współcześnie, to raczej ścieżki ze Spleetera pozostawiją więcej pola do popisu w tej kwestii, bo jak do tej pory pracując na oryginalnych plikach, w większości pozostawianie wiecęj headroomu głośnościowego było czasem konieczne do uzyskania końcowo lepszego brzmienia, gdzie nie byłoby problemów z sybilantami. Ale wtedy jest po prostu ciszej, w tym vs oryginał.

Jednak zacząłem używać tego splitter.ai regularnie. Elegancko wyciągnął mi ostatnio kilka wokali. Clue imprezy to jednak cały czas odpowiedni dobór piosenki, bo usługa słabo radzi sobie ze średnimi częstotliwościami w bicie.

https://www.lalal.ai/
Inna metoda niż Spleeter. Umożliwia przeprocesować darmowo tylko 3 utwory (max. 10 min). Wydobywa tylko wokal i instrumental (czyli tylko 2 stemy zamiast 4 lub 5 jak umożliwia opcjonalnie Spleeter). Zaletą w porównaniu do Spleetera jest to, że zamiast ucinać plik do 32kHz, ucina wszystko do 44kHz, i pozostawia plik jako np. 24 bit, jeśli taki był źródłowo.
Więcej informacji technicznych i porównań
https://medium.com/lalal-ai-official-bl ... f4211d40c0
Jak wynika z powyższego porównania, subiektywnie jakość obu modeli Spleeter-16kHz (32kHz) i LALAL.AI (prawdopodobnie w przypadku instrumentala) jest porównywalna, jednak przy zastosowaniu odpowiedniego miksowania wszystkich Stemów niż tylko używając pojedynczej ścieżki, końcowo Spleeter może zabrzmieć lepiej. Po takim zabiegu i użyciu różnych wtyczek, u mnie na spektogramie na plikach jest już w takim przypadku 44kHz.

Dodano po 31 sekundach:
@BoomGap

@BoomGap musisz to zobaczyć
Ciężko mi w to uwierzyć. Wpadłem teraz na to przypadkiem.

Ten oto skrypt pythonowy niewiadomego pochodzenia, zjada na śniadanie to wszystko co pokazałem wyżej, a jak puścisz sobie randomowy instrumental z EQ na telefonie, to brzmi jak oryginał. Masakra. A ja rzeźbiłem rok w takich g.... że mi włosy siwieją.

BTW. Melody.ml od Moises.ai (Spleeter) na nagraniu może jest neutralniejsze, ale IMHO gorsze, bo mniej werble słychać. W dodatku oczywiście dostęp do stemów w Spleeterze to jednakowoż fajna rzecz. Tutaj nawet tego w zasadzie nie potrzeba. Z biedy nawet można przecież przepuścić taki instrumental z tego skryptu przez 4/5 stem model Spleetera I dalej miksować. Bajka.

edit. Pliki na spektogramie mają 44kHz zamiast 32kHz jak w Spleeterze. Ekstra

Instrukcja

Dodano po 3 dniach 19 godzinach 43 minutach 38 sekundach:
Re: Update!! vocal-removal / Spleeter & LALAL.AI (old) - AI tworzące wokale/instrumentale/4 lub 5 stemów ze zwykłych utworów

https://github.com/Anjok07/ultimatevocalremovergui/
Okazało się, że istnieje dalej rozwijana wersja GUI vocal-removera które zaprezentowałem wyżej, ale GUI zawiera jeszcze różne modele, które można przetestować na danym utworze, aby sprawdzić, który sprawdzi się najlepiej.
Narzędzie zawiera też specjalny tryb usuwania artefaktów wokalu pozostawionego po separacji. W razie potrzeby można też użyć drugiego, inwazyjnego trybu usuwania artefaktów jako ostatnia szansa w razie niepowodzenia.
Wygląda to bardzo smakowicie, jednak wymaga GPU Nvidia z CUDA (od Nvidia Keppler lub GTX 7XX) lub CPU z AVX, jednak na CPU będzie dłużej (na bardzo szybkim ok. 6 min w domyślnym modelu w vocal-removal na Google Colab).

Przetestowałem model 4band_44100 z wersji beta 5 tego narzędzia tymczasowo w wersji Colab
MGM-v5-4Band-44100-BETA1.pth i MGM-v5-4Band-44100-BETA2.pth
Beta 2 jest trochę lepsze, ale od voice-remover trochę inwazyjniej usuwa tło, przez co ciut na wzór Spleetera w niektórych miejscach są werble mniej słyszalne. Wyjątkiem jest tu voice-remover 2.2.0 który ma więcej przeciekania wokalu, ale jest najbardziej wierny oryginalnemu brzmieniu. Dorzucam Google Colab do obu:

UVR beta 5 (lepsze od Spleetera, ale czasem zapiaszcza werble jak Spleeter)
https://colab.research.google.com/drive ... 8TuXWLBrXF
VR 2.2.0 (najczystrze instrumentale, ale czasem za dużo artefaktów z wokali, ale głównie w kawałkach gdzie główny wokal to nie śpiew, bo przy śpiewie działa dobrze i ogólnie brzmi nadal lepiej niż UVR, zwłaszcza jeśli wokal nie ma zbyt dużo pogłosów)
https://colab.research.google.com/drive ... sp=sharing
VR (wersja z wideo wyżej, raczej już bym odradzał)
https://colab.research.google.com/drive ... sp=sharing

Jest jeszcze ciekawa alternatywa 4 stem dla Spleetera. Nazywa się Demucs. Bodaj nie obcina powyżej 16kHz.
Wrzucam Colab:
https://colab.research.google.com/drive ... sp=sharing
tutorial: https://www.youtube.com/watch?v=tHxsqFcx7gw
Ale dla zwykłych instrumentali w jednym pliku lepszą robotę robi UVR.

Ciekawostka na sam koniec, porównywałem płytę EP+ Grammatika rip CD we FLAC z Tidal, i okazało się, że plik z Tidal Downloader Pro ma lepszą separację instrumentów. Potwierdziło się to na spektogramach. Jak otworzycie np. Audacity i włączycie podgląd spektogramu na zoomie jakiegoś fragmentu, to w skrócie jeden plik jest po prostu bardziej czerwony od drugiego na wykresie.

Dodano po 4 dniach 2 godzinach 21 minutach 37 sekundach:
Re: Update! Ultimate Vocal Remover / Demucs / Spleeter / LALAL.AI tworzące wokale/instrumentale/4/5 stem ze zwykłych utworów
Nowe informacje!

Dodano po 5 dniach 18 godzinach 25 minutach 43 sekundach:
Re: Update! Ultimate Vocal Remover / Demucs / Spleeter / LALAL.AI tworzące wokale/instrumentale/4/5 stem ze zwykłych utworów
Jeszcze jedna ciekawa strona ze studyjnymi stemami różnych utworów:
https://remixpacks.ru
Nad filmami YT są właściwe linki

edit
https://colab.research.google.com/githu ... arch.ipynb
Tam zaznaczony 4 band HP2 1 model jest ponoć najlepszy.
Do tego możesz użyj opcji TTA, i prawdopodobnie postprocess. model_ens też, to właściwie dodatkowa opcja do czyszczenia wokali i usuwania artefaktów, ale na 12 modelach domyślnie będzie trwać długo jeden kawałek, możliwe, że ten nowy model nie wymaga tego koniecznie. Ja robiłem na 2 na starym, i już było lepiej, a tam jest 12. Nie wiem, czy ja nie zaznaczysz model version na dole v5_new, to użyje tylko kilku z 12.
Jak coś, tutorial do starej wersji jest tutaj jeśli się zgubisz, ale tam są zaprezentowane jeszcze stare modele i nie ma niektórych funkcji jeszcze:
https://www.youtube.com/watch?v=TIMmySaGoWM

Generalnie odznaczyłbym eksport jako mp3, i wrzucał do obróbki tylko FLAC/WAV. Na Pepperze masz ciągle jakieś promocje na Tidala Hi-Fi za pół darmo. Stamtąd pobierzesz wszystkie pliki przez Tidal-Media-Downloader-PRO. Tylko do logowania tam bodaj trzeba najpierw zainstalować normalnie aplikację TIdal, żeby pobierało Hi-Fi/logowało automatycznie/pobierało 24bit-master
__________________________
Dodałem nową dużą aktualizację w pierwszym poście

@BoomGap
Wiele się pozmieniało na lepsze od kwietnia.
MDX dostał nowy model MDX-UVR 9.7 trenowany na 1000 parach.
UVR dostał nowy, fajny szybki model końcem listopada.
W kwestii 4 stemów wyszedł niedawno dobry Demucs 3.0.
Polepszyła się jakość separacji, jest mniej lub po prostu mało lub w ogóle nie ma przeciekania wokalu do instrumentala, który ma teraz wyraźniejsze werble. Wszystko sprawia wrażenie lepszego jakościowo.

Zrobiłem kompleksowy poradnik w pierwszym poście.
Zawiera te dwie metody do instrumentali. Która będzie w danym przypadku lepsza, zależy od utworu. Niemniej to już jest ten poziom, z którego osobiście jestem zadowolony, i naprawdę w większości przypadków uzyskuje się tymi metodami świetne rezultaty. UVR ma nawet opcje konwersji seryjnej, więc nawet całe albumy można przerabiać. Przy Demuscie czy MDX nie trzeba wiele w sumie tłumaczyć.

Wszystko w pierwszym poście. Miłej zabawy.

Wow, trzeba będzie sprawdzić. Akurat może mi się to przydać do pewnego projektu...

@BoomGap Ptaszki ćwierkają, że darmowe https://www.lalal.ai/ dostało ostatnio model gitarowy (jest do akustycznej i elektrycznej) i piano (powinien być lepszy niż w Spleeterze).

W sumie już pisząc 7 stem po prostu nie wymieniłem wszystkich, bo widziałem wcześniej, ale ktoś mi zwrócił uwagę.

Po roku "nowy" update, choć już te rzeczy krążą jakiś czas.

- Nowe bardzo dobre modele pianina ma GSEP AI, do tego też kolejny dodany model gitary potrafi nie najgorzej też łapać
Fajnie też działa na instrumentale i wokale.

- Demucs dostał update do wersji 4 i nowe modele: gitarowy (niezły) i pianino (słaby). Zwykły 4 stem uległ poprawie (_ft najlepszy)

- Nowe modele MDX-UVR 464 i 418 do instrumentali i wokali (lepsze od starego "9.7"); cały UVR5 GUI został przepisany i szybciej przerabia i ma nowe funkcje (np. nowy denoiser do modeli MDX).

Więcej w pierwszym poście
viewtopic.php?p=286825#p286825

Coś na mvsep.com się nadaje do wyciągania perkusji?

Aktualizacja pierwszego postu

ŚLIZGAWKA

[tutorial 7.2026] Jak zrobić instrumental / acapella / 10 stem z dowolnego utworu [Ultimate Vocal Remover 5/Colab/MVSEP]

[tutorial 7.2026] Jak zrobić instrumental / acapella / 10 stem z dowolnego utworu [Ultimate Vocal Remover 5/Colab/MVSEP]

Re: Spleeter - AI tworzące wokale/instrumentale/stemy ze zwykłych utworów

Re: Spleeter - AI tworzące wokale/instrumentale/stemy ze zwykłych utworów

Re: Spleeter - AI tworzące wokale/instrumentale/stemy ze zwykłych utworów

Re: Spleeter - AI tworzące wokale/instrumentale/stemy ze zwykłych utworów

Re: Spleeter - AI tworzące wokale/instrumentale/stemy ze zwykłych utworów

Re: Spleeter - AI tworzące wokale/instrumentale/stemy ze zwykłych utworów

Re: Spleeter - AI tworzące wokale/instrumentale/stemy ze zwykłych utworów

Re: Spleeter - AI tworzące wokale/instrumentale/stemy ze zwykłych utworów

Re: MDX / Ultimate Vocal Remover / Demucs / Spleeter / LALAL.AI tworzące wokale/instrumentale/4/5 stem ze zwykłych utwor

Re: Spleeter - AI tworzące wokale/instrumentale/stemy ze zwykłych utworów

Re: Spleeter & LALAL.AI - AI tworzące wokale/instrumentale/4 lub 5 stemów ze zwykłych utworów

Re: MDX / Ultimate Vocal Remover / Demucs / Spleeter / LALAL.AI tworzące wokale/instrumentale/4/5 stem ze zwykłych utwor

Re: [tutorial] Jak zrobić instrumental / acapella / 4-7 stem z dowolnego utworu [MDX-Net / Ultimate Vocal Remover / Demu

Re: [tutorial] Jak zrobić dobry instrumental lub 4 stemy z dowolnego utworu [MDX / Ultimate Vocal Remover / Demucs]

Re: [tutorial] Jak zrobić instrumental / acapella / 4 stemy z dowolnego utworu [MDX-Net / Ultimate Vocal Remover / Demuc

Re: [tutorial] Jak zrobić instrumental / acapella / 4-7 stem z dowolnego utworu [MDX-Net / Ultimate Vocal Remover / Demu

Re: [tutorial] Jak zrobić instrumental / acapella / 4-7 stem z dowolnego utworu [MDX-Net / Ultimate Vocal Remover / Demu

Re: [tutorial 2024] Jak zrobić instrumental / acapella / 10 stem z dowolnego utworu [Ultimate Vocal Remover/Colab/MVSEP]