Whisper czyli nowe fajne do rozpoznawania mowy

#141 Pitef

sprubowałem zrobić sobie z tego skrypt, na dysku C mam folder Whisper, w nim folder Robota i plik .bat z treścią twego wpisu. Dopisałem jedynie language pl, model i task. Nie działa.

Sygnatura? A co to jest i do czego :D

2022-10-05 14:49

#142 zywek

Zostaw to task, wpisz samo --language pl i wsio.

2022-10-05 14:51

#143 Pitef

nie działa. wklejam to, co mam w pliku.bat:

for %%a in (Robota\*.*) do (whisper "%%a" --language pl --model medium)

Sygnatura? A co to jest i do czego :D

2022-10-05 14:53

#144 papierek

A piosenki mają melodię, churki i wiele innych zabiegów, przez które AI szaleje.
-- (mateponczas):
Ja rozumiem, ale są takie języki, gdzie, szczególnie w mowie potocznej, głoski są ucinane. Przecież nikt nie będzie się wysilał i mówił hiperpoprawnie tylko po to, by ulżyć temu narzędziu

--

po co mi sygnatura?

2022-10-05 15:01

#145 mateponczas

Ale mi nie chodzi o piosenki. Przykładem niech będzieszwedzki, gdzie nie zawsze fonetyka jest zgodna z pismem, no i klapa.

2022-10-05 15:33

#146 zywek

Ale cośkolwiek się wyświetla?

2022-10-05 15:34

#147 Pitef

Nie. Terminal na moment, i znika.

Sygnatura? A co to jest i do czego :D

2022-10-05 15:39

#148 zywek

Ale katalog robota w ogóle istnieje gdzie masz ten plik bat i na pewno niejest pusty?

2022-10-05 15:40

#149 zywek

jeśli jest pusty, znaczy, jeśli istnieje i ten plik bat gdzieś masz to jeszcze musisz tam ffmpeg.exe jak nie masz w wavach.

2022-10-05 15:40

#150 mateponczas

Dobra, przesyłam Wam podcast OKO.Press wraz z jego transkrybcją. Jest lepiej zdecydowanie, ale wciąż są błędy.
https://oko.press/dps-w-jordanowie-dlaczego-przez-tyle-lat-znecano-sie-tam-nad-dziecmi/

2022-10-05 16:09

#151 tomecki

Z tym jest jak z OCR. Bez błędów nigdy raczej nie będzie, ale pytanie, czy jest wystarczająco dla konkretnego celu.

2022-10-05 16:19

#152 balteam

No i pamiętajcie, że cały czas te algorytmy się poprawiają, więc jak nie teraz, to za 5 czy 10 lat będzie wystarczająco.

Zapraszam osoby posiadające piesy, lub chcące je posiadać, do dołączenia do grupy o psach przewodnikach.

2022-10-05 16:49

#153 papierek

Czy z każdym poprawionym tekstem narzędzie jest lepsze? Chyba to tak nie idzie, bo nie jest to narzędzie chmurowe.

po co mi sygnatura?

2022-10-05 18:06

#154 pajper

Nie, bo modele są statyczne. To nie jest samoorganizująca się sieć neuronowa.

#StandWithUkraine

Shoot for the Moon. Even if you miss, you'll land among the stars.

2022-10-05 18:09

#155 tomecki

A nawet jeśli to jeden teskt nie zmieniłby zbyt wiele, bo tam ponoć już ponad pół miliona godzin weszło.

2022-10-05 18:09

#156 papierek

Dlatego modele oparte na chmurze i samouczeniu się zawsze będą miały przewagę.

po co mi sygnatura?

2022-10-05 18:32

#157 pajper

Tak i nie. Np. w Eltenie nigdy nie moglibyśmy rozważyć wykorzystania Amazonu do transkrypcji wiadomości głosowych, kwestia prywatności.
W Eltenie też to odpada z powodu zasobów, ale już jest hipotetycznie możliwe.

I to nie jest wydumany przypadek, bo śledzę dyskusję na temat Whispera i interesuje on właśnie także programistów platform, które ze względu na prywatność użytkowników nie korzystają z chmury.

#StandWithUkraine

Shoot for the Moon. Even if you miss, you'll land among the stars.

2022-10-05 18:41

#158 zywek

No ale np taki tacotron jest narzędziem do czego innego, ale im więcej mu materiału wrzucisz tym lepiej sobie potem poradzi.

2022-10-05 20:27

#159 tomecki

Owszem, ale zakładając, że ten tacotron ma już 30 godzin materiału to minuta w tę czy we w tę nie robi różnicy. Dlatego pisałem, że w momencie, gdy tych godzin Whisper dostał ponoć ponad pół miliona to trzeba byłoby na prawdę dużo żeby była jakaś znacząca różnica zwłaszcza, że od pewnego momentu ten skok jakościowy jest niewielki i coraz więcej trzeba danych żeby coś się poprawiło. Podobnie jest z RHvoice. Różnica między 60 a 180 zdań jest ogromna. Między 180 zdań, a 600 zdań jest zauważalna, a między 600 a 1800 to już dopinanie ostatnich błędów i kosmetyczne poprawki.

2022-10-06 07:31

#160 zvonimirek222

Tylko tomecki zauważ jedną rzecz:
RHVoice pomiędzy 600 i 1800 znaków to są istotne kosmetyczne poprawki, bo ewentualne łamanie syntezy, dopieszczanie różnych współgłosek, więc nie byłbym taki pewny.

Student studentowi wszystko

2022-10-06 08:55

Site Under Construction

Whisper czyli nowe fajne do rozpoznawania mowy

#141 Pitef

#142 zywek

#143 Pitef

#144 papierek

#145 mateponczas

#146 zywek

#147 Pitef

#148 zywek

#149 zywek

#150 mateponczas

#151 tomecki

#152 balteam

#153 papierek

#154 pajper

#155 tomecki

#156 papierek

#157 pajper

#158 zywek

#159 tomecki

#160 zvonimirek222

Select Language