Whisper czyli nowe fajne do rozpoznawania mowy
Back to Nowości, odkrycia, newsy#201 tomecki
Ciekawe czy na gpu też tak przyspieszy. jeśli przyspieszy. Czy to kwestia wyłącznie tego, że Python taaak zwaaalniaaa? jeśli tak to te wszystkie Vocalremovery i inne takie, Tacotrony przepisane w podobny sposób również mogłyby tyle zyskać?
#202 pajper
Na pewno w temacie obliczeń wykonywanych na CPU języki kompilowane o niebo biją interpretowane, dobrze napisany program w C++ będzie zawsze wydajniejszy od dobrze napisanego programu w Pythonie.
Ale jak to wygląda w temacie GPU? Nie zdziwię się, jeśli się okaże, że tam już narzut Pythona jest tak mały, że różnica będzie pomijalna. Poczekamy, zobaczymy.
Shoot for the Moon. Even if you miss, you'll land among the stars.
#203 tomecki
Ok, ale zastanawia mnie to, że Whisper nie przyspieszył o połowę. To jest wzrost dziesięciokrotny. Czy to jakiś błąd implementacji czy faktycznie te języki interpretowane są aż tak powolne?
#204 pajper
Whisper przyspieszył potężnie, ale na potężnych procesorach. Na typowych zwrost będzie mniej spektakularny, choć na pewno odczuwalny.
Języki interpretowane nie są najlepiej zoptymalizowany do obliczeń wielordzeniowych. Upraszczam oczywiście, ale co do zasady tak jest.
Shoot for the Moon. Even if you miss, you'll land among the stars.
#205 pajper
Na przykład na moim MacBooku z niskonapięciowym I7-7660U wzrost jest dużo mniejszy.
Poprzednio puszczałem na nim "Jest taki samotny dom" na profilu medium, trwało to 92 minuty. Na tej implementacji zajęło to 51 minut. Jest postęp, ale nie aż tak wielki.
Shoot for the Moon. Even if you miss, you'll land among the stars.
#206 tomecki
No, ja mam 14 rdzeni, 20 wątków więc mam nadzieję, że przyspieszy konkretnie. Z drugiej strony mam rtx 3070ti więc pewnie medium będzie szybszy na gpu. Mimo wszystko large nie jestem w stanie tam zrobić, a czasem się jednak przydaje.
#207 midzi
Pytanie, kiedy doczekamy się implementacji w CPP z obsługą GPU. Z tego, co czytałem, jest to dość nisko na liście priorytetów autora. No, ale skoro kod jest otwarty, to zawsze tematem może zająć się ktoś inny.
#208 Paulinux
Teraz są już 93 forki, więc coś się rozwija w temacie, tylko trudno sprawdzać co jest w którym
#209 pajper
Jak pisałem, nie jest jasne, czy whisper.cpp na GPU przyniesie w ogóle jakikolwiek znaczący przełom. Moim zdaniem raczej nie.
Czas obliczeń GPU jest taki sam dla Torcha i innych bibliotek, bo po skopiowaniu pamięci, resztę przejmuje karta. Na pewno troszkę krótsze będą czasy obliczeń na procesorze, może lepiej zoptymalizowana probabilistyka, ale wydaje mi się, że jakieś 10 - 15 procent wydajniejsze rozwiązanie to maximum.
Oczywiście mogę się mylić, nie czuję się ekspertem od torcha.
Shoot for the Moon. Even if you miss, you'll land among the stars.
#210 pajper
Z resztą dla mnie ciekawostką tej implementacji jest coś zupełnie innego.
Do tej pory whisper wymagał do sensownego działania bardzo drogiego sprzętu, w dodatku dość specyficznego, bo wielu z nas ma naprawdę dobre procesory, a mało kto z niewidomych tak dba o grafikę. Z resztą nawet ja dysponuję 5-gigahercowym CPU, ale z grafiki tylko GTX 1650 TI.
Tym czasem whisper.cpp świetnie sobie radzi na zwykłych komputerach, a nawet na smartfonach. Model base po polsku jeszcze wiele pozostawia do życzenia, ale nic nie stoi na przeszkodzie, by utworzyć własny, polskojęzyczny.
Może doczekaliśmy wreszcie uwolnienia rozpoznawania mowy od serwisów chmurowych?
Shoot for the Moon. Even if you miss, you'll land among the stars.
#211 tomecki
No właśnie. Ciekawe jak się trenuje modele do Whispera, bo skoro polski to głównie Common Voice to faktycznie możnaby stworzyć model tylko polski oparty na CV.
#212 matius
Jak uruchomić tą kompilacje w c?
#213 zywek
trzeba visual studio pewnie.
#214 matius
Nie wiem co jest nie tak.
Chce też whispera zainstalować na paitonie i:
PS C:\Users\mateu> pip install git+https://github.com/openai/whisper.git
pip : The term 'pip' is not recognized as the name of a cmdlet, function, script file, or operable program. Check the s
pelling of the name, or if a path was included, verify that the path is correct and try again.
At line:1 char:1
+ pip install git+https://github.com/openai/whisper.git
+ ~~~
+ CategoryInfo : ObjectNotFound: (pip:String) [], CommandNotFoundException
+ FullyQualifiedErrorId : CommandNotFoundException
PS C:\Users\mateu>
#215 zywek
A Ty to robisz z powershella? W jakim celu? Zainstaluj pythona, zachacz przy instalacji pythona, żeby zainstalował pip i potem możęsz normalnie z cmd, nie trzeba pwershella.
#216 matius
Dzięki, a teraz mam:
C:\Users\mateu>pip install git+https://github.com/openai/whisper.git
Collecting git+https://github.com/openai/whisper.git
Cloning https://github.com/openai/whisper.git to c:\users\mateu\appdata\local\temp\pip-req-build-l1xf9lzk
ERROR: Error [WinError 2] Nie można odnaleźć określonego pliku while executing command git version
ERROR: Cannot find command 'git' - do you have 'git' installed and in your PATH?
[notice] A new release of pip available: 22.3 -> 22.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip
C:\Users\mateu>
#217 midzi
bo nie masz zainstalowanego Gita
#218 matius
a gdzie to znaleźć?
#219 zywek
klepnij git download for windows w google i teoretycznie pierwszy nagłówek wynikowy powinien być.
#220 balteam
Chodzi im o github jak by co.