Whisper czyli nowe fajne do rozpoznawania mowy
Wróć do Nowości, odkrycia, newsy#121 papierek
polska piosenka na large.
#122 mateponczas
Hej.
Z tego komunikatu wynika, że liczba rdzeni CUDA jest zbyt mała, by obsłużyć ten model. Dla modelu medium musi być co najmniej 8 GB, a dla modelu large 12 GB. Inaczej nie pójdzie.
#123 Pitef
Hm. A samym prockiem jak robię, dostaję warning czy tam błąd o tych FP. że niby 16 za mało i trza wykorzystać 32. Tyle, że ja nie wiem jak to zrobić.
#124 papierek
Napisałem, że ten warning ma się pojawiać, jest to normalne.
#125 Pitef
okej, czyli jak dłuższy czas nie widzę jakiegoś postempu w Command Line, to poczekać?
#126 papierek
Zignoruj go zwyczajnie i czekaj, aż się rozpozna to, co tam wstawiłeś. Ale na procesorze będzie to trwało bardzo, bardzo, bardzo długo, chyba, że użyjesz modelu base albo tiny.
#127 Pitef
robię Medium. zobaczymy co wylezie
#128 papierek
Jeżeli obciążenie procesora wzrosło bardzo mocno to znaczy, że on tam sobie działa spokojnie. W command line nie będziesz widział postępu bardzo, bardzo długi czas.
#129 Pitef
wzrósł i procek i ram.
#130 mateponczas
Słuchajcie. Wiem, że dla niektórych mogę być nieobiektywny, ale zarówno model medium, jak i large nie poprawia dokładności. Robiłem wiele transkrybcji na materiale mówionym i na piosenkach i powiem, że to narzędzie jeszcze ma sporo błędów. Mam nadzieję, że będą je aktualizować, bo jeśli pozostawią je w obecnym stanie, to to narzędzie do profesjonalnych zastosowań się nie nadaje. Granica błędu jest mocna.
#131 mateponczas
Dodam, że robiłem na modelu medium na GPU.
#132 pajper
Bo to narzędzie nie powstało z myślą o piosenkach. :)
Shoot for the Moon. Even if you miss, you'll land among the stars.
#133 papierek
Dokładnie. To, że jest w stanie rozpoznawać piosenki to raczej feature, niż zamierzona funkcjonalność. Sieć do modelu zapewne dostawała mowę, a nie piosenki.
#134 tomecki
A daj linka do tej konkretnej wersji tego samotnego domu, bo raz, że sam zespół zrobił co najmniej dwie, po za tym są na YT różne jakości, a zauważyłem, że to ma wpływ na szybkość.
#135 mateponczas
Ja rozumiem, ale są takie języki, gdzie, szczególnie w mowie potocznej, głoski są ucinane. Przecież nikt nie będzie się wysilał i mówił hiperpoprawnie tylko po to, by ulżyć temu narzędziu
#136 tomecki
Ale czym innym jest piosenka, gdzie prócz słów, w dodatku w nienaturalnym rytmie jest jeszcze cały akompaniament, a czym innym zwykła mowa, zwłaszcza na forum, gdzie jednak ludzie starają się aby ich mowa była zrozumiała. Swego rodzajem dowodem na poparcie moich słów niech będzie fakt, że Google totalnie sypie się na piosenkach, jednak mówić do niego, zwłaszcza blisko mikrofonu można różnie.
#137 pajper
To był ten, w załączeniu transkrypcja. Ciekawostka, patrzcie na górę. Ciekawe, czy wychwycił to z watermarku, czy czego.
https://www.youtube.com/watch?v=wT_ObQMSs3U
Shoot for the Moon. Even if you miss, you'll land among the stars.
#138 tomecki
Oto,co trzeba wpisać aby przerobić pliki w folderze robota znajdującym się w lokalizacji wywoływania komendy:
for %%a in (robota\*.*) do (whisper "%%a" --model medium)
Oczywiście nazwę modelu można dowolną wpisać, no i wymusić język albo inny parametr wpisać, byle przed zamknięciem nawiasu.
#139 pajper
A co do wielkiego zainteresowania, to nie do końca tak. Programistycznie to jest bardzo duży przełom i o Whisperze już są długaśne wątki na licznych forach programistycznych.
Możliwość rozpoznawania na wysokim poziomie mowy bez rozwiązań chmurowych to naprawdę przełom i na pewno to rozwiązanie będzie implementowane w najbliższych latach w bardzo wielu programach.
Było kilka rozwiązań, m.in. DeepSpeech, ale żadne z nich nie było tak dobre i nie mogło się równać z rozwiązaniami od Amazonu czy Google. Whisper jak najbardziej może, choć niestety ma też swoje mankamenty, z ogromnymi wymaganiami na czele.
Shoot for the Moon. Even if you miss, you'll land among the stars.
#140 zywek
Jakie 8 giga do modelu medium? Ja mam 6 i działa. Niektóre piosaenki, szczególnie gdzie np jest sama gitara czy fortepian rozpoznaje bardzo dobrze, z drugiej strny nagrania robione zoomem niektóre też, a niektórych rozpoznaje tylko jedną frazę w dodatku tą, która nigdy nie została wypwiedziana.