Forum

Whisper czyli nowe fajne do rozpoznawania mowy

papierek

#121 · 2022-10-05 13:18

polska piosenka na large.

mateponczas

#122 · 2022-10-05 13:21

Hej.
Z tego komunikatu wynika, że liczba rdzeni CUDA jest zbyt mała, by obsłużyć ten model. Dla modelu medium musi być co najmniej 8 GB, a dla modelu large 12 GB. Inaczej nie pójdzie.

Pitef

#123 · 2022-10-05 13:23

Hm. A samym prockiem jak robię, dostaję warning czy tam błąd o tych FP. że niby 16 za mało i trza wykorzystać 32. Tyle, że ja nie wiem jak to zrobić.

papierek

#124 · 2022-10-05 13:27

1 likes

Napisałem, że ten warning ma się pojawiać, jest to normalne.

Pitef

#125 · 2022-10-05 13:27

okej, czyli jak dłuższy czas nie widzę jakiegoś postempu w Command Line, to poczekać?

papierek

#126 · 2022-10-05 13:27

1 likes

Zignoruj go zwyczajnie i czekaj, aż się rozpozna to, co tam wstawiłeś. Ale na procesorze będzie to trwało bardzo, bardzo, bardzo długo, chyba, że użyjesz modelu base albo tiny.

Pitef

#127 · 2022-10-05 13:28

robię Medium. zobaczymy co wylezie

papierek

#128 · 2022-10-05 13:29

1 likes

Jeżeli obciążenie procesora wzrosło bardzo mocno to znaczy, że on tam sobie działa spokojnie. W command line nie będziesz widział postępu bardzo, bardzo długi czas.

Pitef

#129 · 2022-10-05 13:29

wzrósł i procek i ram.

Słuchajcie. Wiem, że dla niektórych mogę być nieobiektywny, ale zarówno model medium, jak i large nie poprawia dokładności. Robiłem wiele transkrybcji na materiale mówionym i na piosenkach i powiem, że to narzędzie jeszcze ma sporo błędów. Mam nadzieję, że będą je aktualizować, bo jeśli pozostawią je w obecnym stanie, to to narzędzie do profesjonalnych zastosowań się nie nadaje. Granica błędu jest mocna.

mateponczas

#131 · 2022-10-05 13:36

Dodam, że robiłem na modelu medium na GPU.

pajper

#132 · 2022-10-05 14:01

1 likes

Bo to narzędzie nie powstało z myślą o piosenkach. :)

papierek

#133 · 2022-10-05 14:05

1 likes

Dokładnie. To, że jest w stanie rozpoznawać piosenki to raczej feature, niż zamierzona funkcjonalność. Sieć do modelu zapewne dostawała mowę, a nie piosenki.

tomecki

#134 · 2022-10-05 14:15

A daj linka do tej konkretnej wersji tego samotnego domu, bo raz, że sam zespół zrobił co najmniej dwie, po za tym są na YT różne jakości, a zauważyłem, że to ma wpływ na szybkość.

mateponczas

#135 · 2022-10-05 14:19

Ja rozumiem, ale są takie języki, gdzie, szczególnie w mowie potocznej, głoski są ucinane. Przecież nikt nie będzie się wysilał i mówił hiperpoprawnie tylko po to, by ulżyć temu narzędziu

tomecki

#136 · 2022-10-05 14:24

Ale czym innym jest piosenka, gdzie prócz słów, w dodatku w nienaturalnym rytmie jest jeszcze cały akompaniament, a czym innym zwykła mowa, zwłaszcza na forum, gdzie jednak ludzie starają się aby ich mowa była zrozumiała. Swego rodzajem dowodem na poparcie moich słów niech będzie fakt, że Google totalnie sypie się na piosenkach, jednak mówić do niego, zwłaszcza blisko mikrofonu można różnie.

pajper

#137 · 2022-10-05 14:27

1 likes

To był ten, w załączeniu transkrypcja. Ciekawostka, patrzcie na górę. Ciekawe, czy wychwycił to z watermarku, czy czego.

https://www.youtube.com/watch?v=wT_ObQMSs3U

tomecki

#138 · 2022-10-05 14:29

Oto,co trzeba wpisać aby przerobić pliki w folderze robota znajdującym się w lokalizacji wywoływania komendy:
for %%a in (robota\*.*) do (whisper "%%a" --model medium)
Oczywiście nazwę modelu można dowolną wpisać, no i wymusić język albo inny parametr wpisać, byle przed zamknięciem nawiasu.

pajper

#139 · 2022-10-05 14:34

1 likes

A co do wielkiego zainteresowania, to nie do końca tak. Programistycznie to jest bardzo duży przełom i o Whisperze już są długaśne wątki na licznych forach programistycznych.
Możliwość rozpoznawania na wysokim poziomie mowy bez rozwiązań chmurowych to naprawdę przełom i na pewno to rozwiązanie będzie implementowane w najbliższych latach w bardzo wielu programach.
Było kilka rozwiązań, m.in. DeepSpeech, ale żadne z nich nie było tak dobre i nie mogło się równać z rozwiązaniami od Amazonu czy Google. Whisper jak najbardziej może, choć niestety ma też swoje mankamenty, z ogromnymi wymaganiami na czele.

zywek

#140 · 2022-10-05 14:49

Jakie 8 giga do modelu medium? Ja mam 6 i działa. Niektóre piosaenki, szczególnie gdzie np jest sama gitara czy fortepian rozpoznaje bardzo dobrze, z drugiej strny nagrania robione zoomem niektóre też, a niektórych rozpoznaje tylko jedną frazę w dodatku tą, która nigdy nie została wypwiedziana.