EltenLink

Whisper czyli nowe fajne do rozpoznawania mowy

Wróć do Nowości, odkrycia, newsy

#121 papierek

polska piosenka na large.


po co mi sygnatura?
2022-10-05 13:18

#122 mateponczas

Hej.
Z tego komunikatu wynika, że liczba rdzeni CUDA jest zbyt mała, by obsłużyć ten model. Dla modelu medium musi być co najmniej 8 GB, a dla modelu large 12 GB. Inaczej nie pójdzie.



2022-10-05 13:21

#123 Pitef

Hm. A samym prockiem jak robię, dostaję warning czy tam błąd o tych FP. że niby 16 za mało i trza wykorzystać 32. Tyle, że ja nie wiem jak to zrobić.


Sygnatura? A co to jest i do czego :D
2022-10-05 13:23

#124 papierek

Napisałem, że ten warning ma się pojawiać, jest to normalne.


po co mi sygnatura?
2022-10-05 13:27

#125 Pitef

okej, czyli jak dłuższy czas nie widzę jakiegoś postempu w Command Line, to poczekać?


Sygnatura? A co to jest i do czego :D
2022-10-05 13:27

#126 papierek

Zignoruj go zwyczajnie i czekaj, aż się rozpozna to, co tam wstawiłeś. Ale na procesorze będzie to trwało bardzo, bardzo, bardzo długo, chyba, że użyjesz modelu base albo tiny.


po co mi sygnatura?
2022-10-05 13:27

#127 Pitef

robię Medium. zobaczymy co wylezie


Sygnatura? A co to jest i do czego :D
2022-10-05 13:28

#128 papierek

Jeżeli obciążenie procesora wzrosło bardzo mocno to znaczy, że on tam sobie działa spokojnie. W command line nie będziesz widział postępu bardzo, bardzo długi czas.


po co mi sygnatura?
2022-10-05 13:29

#129 Pitef

wzrósł i procek i ram.


Sygnatura? A co to jest i do czego :D
2022-10-05 13:29

#130 mateponczas

Słuchajcie. Wiem, że dla niektórych mogę być nieobiektywny, ale zarówno model medium, jak i large nie poprawia dokładności. Robiłem wiele transkrybcji na materiale mówionym i na piosenkach i powiem, że to narzędzie jeszcze ma sporo błędów. Mam nadzieję, że będą je aktualizować, bo jeśli pozostawią je w obecnym stanie, to to narzędzie do profesjonalnych zastosowań się nie nadaje. Granica błędu jest mocna.



2022-10-05 13:35

#131 mateponczas

Dodam, że robiłem na modelu medium na GPU.



2022-10-05 13:36

#132 pajper

Bo to narzędzie nie powstało z myślą o piosenkach. :)


#StandWithUkraine

Shoot for the Moon. Even if you miss, you'll land among the stars.
2022-10-05 14:01

#133 papierek

Dokładnie. To, że jest w stanie rozpoznawać piosenki to raczej feature, niż zamierzona funkcjonalność. Sieć do modelu zapewne dostawała mowę, a nie piosenki.


po co mi sygnatura?
2022-10-05 14:05

#134 tomecki

A daj linka do tej konkretnej wersji tego samotnego domu, bo raz, że sam zespół zrobił co najmniej dwie, po za tym są na YT różne jakości, a zauważyłem, że to ma wpływ na szybkość.



2022-10-05 14:15

#135 mateponczas

Ja rozumiem, ale są takie języki, gdzie, szczególnie w mowie potocznej, głoski są ucinane. Przecież nikt nie będzie się wysilał i mówił hiperpoprawnie tylko po to, by ulżyć temu narzędziu



2022-10-05 14:19

#136 tomecki

Ale czym innym jest piosenka, gdzie prócz słów, w dodatku w nienaturalnym rytmie jest jeszcze cały akompaniament, a czym innym zwykła mowa, zwłaszcza na forum, gdzie jednak ludzie starają się aby ich mowa była zrozumiała. Swego rodzajem dowodem na poparcie moich słów niech będzie fakt, że Google totalnie sypie się na piosenkach, jednak mówić do niego, zwłaszcza blisko mikrofonu można różnie.



2022-10-05 14:24

#137 pajper

To był ten, w załączeniu transkrypcja. Ciekawostka, patrzcie na górę. Ciekawe, czy wychwycił to z watermarku, czy czego.

https://www.youtube.com/watch?v=wT_ObQMSs3U


#StandWithUkraine

Shoot for the Moon. Even if you miss, you'll land among the stars.
2022-10-05 14:27

#138 tomecki

Oto,co trzeba wpisać aby przerobić pliki w folderze robota znajdującym się w lokalizacji wywoływania komendy:
for %%a in (robota\*.*) do (whisper "%%a" --model medium)
Oczywiście nazwę modelu można dowolną wpisać, no i wymusić język albo inny parametr wpisać, byle przed zamknięciem nawiasu.



2022-10-05 14:29

#139 pajper

A co do wielkiego zainteresowania, to nie do końca tak. Programistycznie to jest bardzo duży przełom i o Whisperze już są długaśne wątki na licznych forach programistycznych.
Możliwość rozpoznawania na wysokim poziomie mowy bez rozwiązań chmurowych to naprawdę przełom i na pewno to rozwiązanie będzie implementowane w najbliższych latach w bardzo wielu programach.
Było kilka rozwiązań, m.in. DeepSpeech, ale żadne z nich nie było tak dobre i nie mogło się równać z rozwiązaniami od Amazonu czy Google. Whisper jak najbardziej może, choć niestety ma też swoje mankamenty, z ogromnymi wymaganiami na czele.


#StandWithUkraine

Shoot for the Moon. Even if you miss, you'll land among the stars.
2022-10-05 14:34

#140 zywek

Jakie 8 giga do modelu medium? Ja mam 6 i działa. Niektóre piosaenki, szczególnie gdzie np jest sama gitara czy fortepian rozpoznaje bardzo dobrze, z drugiej strny nagrania robione zoomem niektóre też, a niektórych rozpoznaje tylko jedną frazę w dodatku tą, która nigdy nie została wypwiedziana.



2022-10-05 14:49