Whisper czyli nowe fajne do rozpoznawania mowy
Back to Nowości, odkrycia, newsy#141 Pitef
sprubowałem zrobić sobie z tego skrypt, na dysku C mam folder Whisper, w nim folder Robota i plik .bat z treścią twego wpisu. Dopisałem jedynie language pl, model i task. Nie działa.
#142 zywek
Zostaw to task, wpisz samo --language pl i wsio.
#143 Pitef
nie działa. wklejam to, co mam w pliku.bat:
for %%a in (Robota\*.*) do (whisper "%%a" --language pl --model medium)
#144 papierek
A piosenki mają melodię, churki i wiele innych zabiegów, przez które AI szaleje.
-- (mateponczas):
Ja rozumiem, ale są takie języki, gdzie, szczególnie w mowie potocznej, głoski są ucinane. Przecież nikt nie będzie się wysilał i mówił hiperpoprawnie tylko po to, by ulżyć temu narzędziu
--
#145 mateponczas
Ale mi nie chodzi o piosenki. Przykładem niech będzieszwedzki, gdzie nie zawsze fonetyka jest zgodna z pismem, no i klapa.
#146 zywek
Ale cośkolwiek się wyświetla?
#147 Pitef
Nie. Terminal na moment, i znika.
#148 zywek
Ale katalog robota w ogóle istnieje gdzie masz ten plik bat i na pewno niejest pusty?
#149 zywek
jeśli jest pusty, znaczy, jeśli istnieje i ten plik bat gdzieś masz to jeszcze musisz tam ffmpeg.exe jak nie masz w wavach.
#150 mateponczas
Dobra, przesyłam Wam podcast OKO.Press wraz z jego transkrybcją. Jest lepiej zdecydowanie, ale wciąż są błędy.
https://oko.press/dps-w-jordanowie-dlaczego-przez-tyle-lat-znecano-sie-tam-nad-dziecmi/
#151 tomecki
Z tym jest jak z OCR. Bez błędów nigdy raczej nie będzie, ale pytanie, czy jest wystarczająco dla konkretnego celu.
#152 balteam
No i pamiętajcie, że cały czas te algorytmy się poprawiają, więc jak nie teraz, to za 5 czy 10 lat będzie wystarczająco.
#153 papierek
Czy z każdym poprawionym tekstem narzędzie jest lepsze? Chyba to tak nie idzie, bo nie jest to narzędzie chmurowe.
#154 pajper
Nie, bo modele są statyczne. To nie jest samoorganizująca się sieć neuronowa.
Shoot for the Moon. Even if you miss, you'll land among the stars.
#155 tomecki
A nawet jeśli to jeden teskt nie zmieniłby zbyt wiele, bo tam ponoć już ponad pół miliona godzin weszło.
#156 papierek
Dlatego modele oparte na chmurze i samouczeniu się zawsze będą miały przewagę.
#157 pajper
Tak i nie. Np. w Eltenie nigdy nie moglibyśmy rozważyć wykorzystania Amazonu do transkrypcji wiadomości głosowych, kwestia prywatności.
W Eltenie też to odpada z powodu zasobów, ale już jest hipotetycznie możliwe.
I to nie jest wydumany przypadek, bo śledzę dyskusję na temat Whispera i interesuje on właśnie także programistów platform, które ze względu na prywatność użytkowników nie korzystają z chmury.
Shoot for the Moon. Even if you miss, you'll land among the stars.
#158 zywek
No ale np taki tacotron jest narzędziem do czego innego, ale im więcej mu materiału wrzucisz tym lepiej sobie potem poradzi.
#159 tomecki
Owszem, ale zakładając, że ten tacotron ma już 30 godzin materiału to minuta w tę czy we w tę nie robi różnicy. Dlatego pisałem, że w momencie, gdy tych godzin Whisper dostał ponoć ponad pół miliona to trzeba byłoby na prawdę dużo żeby była jakaś znacząca różnica zwłaszcza, że od pewnego momentu ten skok jakościowy jest niewielki i coraz więcej trzeba danych żeby coś się poprawiło. Podobnie jest z RHvoice. Różnica między 60 a 180 zdań jest ogromna. Między 180 zdań, a 600 zdań jest zauważalna, a między 600 a 1800 to już dopinanie ostatnich błędów i kosmetyczne poprawki.
#160 zvonimirek222
Tylko tomecki zauważ jedną rzecz:
RHVoice pomiędzy 600 i 1800 znaków to są istotne kosmetyczne poprawki, bo ewentualne łamanie syntezy, dopieszczanie różnych współgłosek, więc nie byłbym taki pewny.