Forum

Whisper czyli nowe fajne do rozpoznawania mowy

papierek

#181 · 2022-10-29 08:12

1 polubień

Zawsze można znaleźć odpowiednie miejsce w podcascie i sprawdzić. To jest pomoc, a nie zastępuje tyflopodcast.

@papierek: otóż to. Przede wszystkim jest to pomoc dla osób z problemami ze słuchem, dla których Tyflopodcast jest niedostępny, dzięki tym napisom jest, a przynajmniej staje się zdecydowanie bardziej dostępny. Jeśli ktoś ma ochotę wykorzystywać te napisy zamiast audycji, no spoko, czemu nie.

daszekmdn

#183 · 2022-10-30 00:41

1 polubień

Fajna rzecz, zauważyłem już kilka dni temu. Dla mnie dobre, bo nie mam cierpliwości do długich audycji w audio :D.

papierek

#184 · 2022-10-30 21:00

1 polubień

No właśnie ja tak samo, większość nie interesuje mnie na tyle, żeby aż sobie słuchać, nawet na tym przyspieszeniu i wolę poczytać jak newsy, a jak jakiś news mnie szczególnie zainteresuje, to sobie na szybko poszukam, przewinę, jak treść transkrypcji jest niejasna, albo jest coś, co wiem, że i tak muszę usłyszeć. Albo nawet taka głupia rzecz, łatwiej kogoś w komentarzu zacytować, jak mamy do niego pytanie. Tu pewnie też trzeba uważać, bo można zacytować kogoś z błędem transkrypcji, ale błędy się serio zdarzają tylko w specyficznych sytuacjach.

pates

#185 · 2022-11-01 12:41

Edytowano

Lepiej przez windowsa, czy wsl'em tutaj podejść temat? Mam gtx 1660 super.

zywek

#186 · 2022-11-02 11:38

Edytowano

Windowsa możesz, wsl obetnie trochę wydajności.więc się raczej średnio opłaca chyba.

midzi

#187 · 2022-11-04 14:24

Mam komputer z RTX 3090 i jestem po pierwszych testach Whispera. Rozpoznaje GPU, działa na nim. Mam jednak wrażenie, że nie wyciskam z tej karty pełni możliwości. Na instancjach na vast.ai osiągam na tych kartach prędkości jakieś 4X, na mojej maszynie jest to 1X. Ktoś zdążył może bardziej zgłębić temat, co może być powodem? Kwestia ustawień samej karty, czy coś jeszcze? Whispera uruchamiam bezpośrednio z poziomu okienek, bez WSL.

pajper

#188 · 2022-11-04 14:28

1 polubień

Jakie CPU? Bo to też ważne.

tomecki

#189 · 2022-11-04 14:28

1 polubień

Mówią, że Windows jest wolniejszy w tych kwestiach, ale żeby aż tak zwalniał... zobacz temperatury karty. Teraz nie pamiętam jakiego softu najlepiej do tego użyć, ale czymś się chyba dało.

midzi

#190 · 2022-11-04 14:47

@pajper: Intel Core i5-12400F

pajper

#191 · 2022-11-04 14:50

1 polubień

To nie jest jakiś bardzo wyjątkwy procesor, pewnie tu bym się doszukiwał gwoździa.

midzi

#192 · 2022-11-04 15:18

No nic, spróbuję to jeszcze bardziej potestować, przede wszystkim pogrzebię w ustawieniach samej karty.

midzi

#193 · 2022-11-04 15:31

2 polubień

Wygląda na to, że udało mi się rozwiązać problem. Kwestia faktycznie, ustawień karty, trzebabyło przestawić na maksymalną wydajność, bo była w trybie oszczędzania energii, teraz śmiga.

tomecki

#194 · 2022-11-04 18:43

1 polubień

Oo, to aż taka różnica jest? Może spróbuję u siebie i zobaczę, jak to wygląda, chociaż z modelem medium najwyżej mogę podziałać.

midzi

#195 · 2022-11-04 20:11

Edytowano 1 polubień

Problem okazał się być jednak innej natury. I to, że tak powiem, bardzo sprzętowej. Okazało się, że ktoś wpadł na genialny pomysł, żeby zabezpieczyć komputer piankami nie tylko od zewnątrz, a nie raczył w żaden sposób poinformować o tym fakcie. Obudowa taka, że nic nie widać, a z racji, że sprzęt był w docelowej konfiguracji nie miałem potrzeby żeby grzebać, dopiero dziś mnie tknęło. Efekty łatwe do przewidzenia. Dobrze, że się nic nie stało.

pajper

#196 · 2022-11-19 13:34

1 polubień

Powstała oparta na Whisperze implementacja napisana w czystym C++, a więc sporo wydajniejsza od Pythona. Na chwilę obecną działa tylko na CPU i wykorzystuje nieco prostszy algorytm probabilistyczny, więc wyniki są nieco gorsze, ale w moich testach, nieznacznie. Plus obydwie kwestie docelowo mają zostać rozwiązane.
Potrafi pracować na wielu rdzeniach, więc najwięcej osiągamy na procesorach z najwyższej półki.
Na Core I7-10750H (12 wątków) osiąga prędkości bardzo porównywalne z GTX 1650 TI.
Na Eltenowym serwerze (AMD EPYC 7351P, 32 wątki) do modelu medium radzi sobie w czasie rzeczywistym, Tyfloprzegląd trwający 4h7m zrobiła w 3h51m.

https://github.com/ggerganov/whisper.cpp

papierek

#197 · 2022-11-19 14:13

1 polubień

Ma spoory potęcjał w każdym razie, o ile będzie również tak wydajne.

pajper

#198 · 2022-11-19 14:35

1 polubień

Tak, ta implementacja spokojnie sobie radzi w czasie rzeczywistym nawet na telefonach, co prawda na modelu base, ale to już sporo.

tomecki

#199 · 2022-11-20 12:09

A da się stworzyć na podstawie tego działający program na Win? Mnie się coś takiego przyda, ale jestem trochę zbyt cienki żeby to to uruchomić.

pajper

#200 · 2022-11-20 12:14

Edytowano 1 polubień

OK, postaram się jutro w wolnej chwili to skompilować i podrzucić exe.

Generalnie potencjał jest spory, bo wydajnościowo w stosunku do implementacji w Pythonie to niebo a ziemia.