Whisper czyli nowe fajne do rozpoznawania mowy
Wróć do Nowości, odkrycia, newsy#181 papierek
Zawsze można znaleźć odpowiednie miejsce w podcascie i sprawdzić. To jest pomoc, a nie zastępuje tyflopodcast.
#182 midzi
@papierek: otóż to. Przede wszystkim jest to pomoc dla osób z problemami ze słuchem, dla których Tyflopodcast jest niedostępny, dzięki tym napisom jest, a przynajmniej staje się zdecydowanie bardziej dostępny. Jeśli ktoś ma ochotę wykorzystywać te napisy zamiast audycji, no spoko, czemu nie.
#183 daszekmdn
Fajna rzecz, zauważyłem już kilka dni temu. Dla mnie dobre, bo nie mam cierpliwości do długich audycji w audio :D.
#184 papierek
No właśnie ja tak samo, większość nie interesuje mnie na tyle, żeby aż sobie słuchać, nawet na tym przyspieszeniu i wolę poczytać jak newsy, a jak jakiś news mnie szczególnie zainteresuje, to sobie na szybko poszukam, przewinę, jak treść transkrypcji jest niejasna, albo jest coś, co wiem, że i tak muszę usłyszeć. Albo nawet taka głupia rzecz, łatwiej kogoś w komentarzu zacytować, jak mamy do niego pytanie. Tu pewnie też trzeba uważać, bo można zacytować kogoś z błędem transkrypcji, ale błędy się serio zdarzają tylko w specyficznych sytuacjach.
#185 pates
Lepiej przez windowsa, czy wsl'em tutaj podejść temat? Mam gtx 1660 super.
#186 zywek
Windowsa możesz, wsl obetnie trochę wydajności.więc się raczej średnio opłaca chyba.
#187 midzi
Mam komputer z RTX 3090 i jestem po pierwszych testach Whispera. Rozpoznaje GPU, działa na nim. Mam jednak wrażenie, że nie wyciskam z tej karty pełni możliwości. Na instancjach na vast.ai osiągam na tych kartach prędkości jakieś 4X, na mojej maszynie jest to 1X. Ktoś zdążył może bardziej zgłębić temat, co może być powodem? Kwestia ustawień samej karty, czy coś jeszcze? Whispera uruchamiam bezpośrednio z poziomu okienek, bez WSL.
#188 pajper
Jakie CPU? Bo to też ważne.
Shoot for the Moon. Even if you miss, you'll land among the stars.
#189 tomecki
Mówią, że Windows jest wolniejszy w tych kwestiach, ale żeby aż tak zwalniał... zobacz temperatury karty. Teraz nie pamiętam jakiego softu najlepiej do tego użyć, ale czymś się chyba dało.
#190 midzi
@pajper: Intel Core i5-12400F
#191 pajper
To nie jest jakiś bardzo wyjątkwy procesor, pewnie tu bym się doszukiwał gwoździa.
Shoot for the Moon. Even if you miss, you'll land among the stars.
#192 midzi
No nic, spróbuję to jeszcze bardziej potestować, przede wszystkim pogrzebię w ustawieniach samej karty.
#193 midzi
Wygląda na to, że udało mi się rozwiązać problem. Kwestia faktycznie, ustawień karty, trzebabyło przestawić na maksymalną wydajność, bo była w trybie oszczędzania energii, teraz śmiga.
#194 tomecki
Oo, to aż taka różnica jest? Może spróbuję u siebie i zobaczę, jak to wygląda, chociaż z modelem medium najwyżej mogę podziałać.
#195 midzi
Problem okazał się być jednak innej natury. I to, że tak powiem, bardzo sprzętowej. Okazało się, że ktoś wpadł na genialny pomysł, żeby zabezpieczyć komputer piankami nie tylko od zewnątrz, a nie raczył w żaden sposób poinformować o tym fakcie. Obudowa taka, że nic nie widać, a z racji, że sprzęt był w docelowej konfiguracji nie miałem potrzeby żeby grzebać, dopiero dziś mnie tknęło. Efekty łatwe do przewidzenia. Dobrze, że się nic nie stało.
#196 pajper
Powstała oparta na Whisperze implementacja napisana w czystym C++, a więc sporo wydajniejsza od Pythona. Na chwilę obecną działa tylko na CPU i wykorzystuje nieco prostszy algorytm probabilistyczny, więc wyniki są nieco gorsze, ale w moich testach, nieznacznie. Plus obydwie kwestie docelowo mają zostać rozwiązane.
Potrafi pracować na wielu rdzeniach, więc najwięcej osiągamy na procesorach z najwyższej półki.
Na Core I7-10750H (12 wątków) osiąga prędkości bardzo porównywalne z GTX 1650 TI.
Na Eltenowym serwerze (AMD EPYC 7351P, 32 wątki) do modelu medium radzi sobie w czasie rzeczywistym, Tyfloprzegląd trwający 4h7m zrobiła w 3h51m.
https://github.com/ggerganov/whisper.cpp
Shoot for the Moon. Even if you miss, you'll land among the stars.
#197 papierek
Ma spoory potęcjał w każdym razie, o ile będzie również tak wydajne.
#198 pajper
Tak, ta implementacja spokojnie sobie radzi w czasie rzeczywistym nawet na telefonach, co prawda na modelu base, ale to już sporo.
Shoot for the Moon. Even if you miss, you'll land among the stars.
#199 tomecki
A da się stworzyć na podstawie tego działający program na Win? Mnie się coś takiego przyda, ale jestem trochę zbyt cienki żeby to to uruchomić.
#200 pajper
OK, postaram się jutro w wolnej chwili to skompilować i podrzucić exe.
Generalnie potencjał jest spory, bo wydajnościowo w stosunku do implementacji w Pythonie to niebo a ziemia.
Shoot for the Moon. Even if you miss, you'll land among the stars.