EltenLink

Whisper czyli nowe fajne do rozpoznawania mowy

Back to Nowości, odkrycia, newsy

#321 Piciok

Ten Whisper to już cpp, tak myślę, bo też nie mam innych opcji. To też chyba jedyna implementacja jaką widzę w plikach programu. W następnej wersji chyba będzie Faster Whisper, a przynajmniej na to wskazują zmiany w kodzie.



2023-04-24 18:10

#322 papierek

Nie wiem, jak to z tym jest. Tam jest napisane, że wspiera faster whisper, whisper cpp i zwykły whisper. Czyli logicznie rozumując przy wybraniu zwykły whisper odpala się ten zwykły, a cpp nie ma do wyboru. No chyba, że po update się pojawią do wyboru te wszystkie inne opcje, albo po skompilowaniu sobie samemu ze źródeł. Jak by nie było, super apka.


po co mi sygnatura?
2023-04-25 19:27

#323 Piciok

Słuszna uwaga. Przyjrzałem się sprawie i rzeczywiście wygląda na to, że korzystamy ze zwykłego Whispera z takim wsparciem CPU na jakie go stać. biblioteki Whisper.CPP są co prawda dostarczane z programem, ale prawdopodobnie się nie ładują. Wskazywałaby na to wzmianka w kodzie o ukrywaniu opcji Whisper.CPP jeżeli biblioteka Whisper.dll nie została załadowana. Czemu tak jest? Nie wiem. Jeśli sprawa nie okaże się bugiem, który w następnej wersji zostanie rozwiązany, zapytam w czym rzecz, bo chyba wszyscy mają ten problem, a ani dokumentacja programu, ani żadne z dotychczasowych zgłoszeń na Githubie nie sugeruje odpowiedzi.
Dzięki za czujność!



2023-04-26 14:20

#324 papierek

Chyba, że występują jeszcze inne zależności, trzeba sobie samemu pobrać tę bibliotekę, albo występuje jeszcze jakiś inny problem, o którym nie mam pojęcia. Warto by się skontaktować może z autorem, czy to przez mail, albo na gicie?


po co mi sygnatura?
2023-04-26 18:34

#325 papierek

Generalnie doczytałem, że ktoś zgłaszał, że fajnie by było zaimplementować whisper cpp lub faster whisper. Dokopałem się do komentarza autora dwa dni temu, że już jest to zaimplementowane i za kilka dni będzie nowy release, który będzie to pokrywał, jak zrozumiałem
https://github.com/chidiwilliams/buzz/issues/386


po co mi sygnatura?
2023-04-26 18:43

#326 Piciok

Tak, też to czytałem i myślałem, że dotyczy tylko Faster, bo tak jak pisałem, pliki od CPP widziałem w mojej kopii, z której korzystam, może teraz rzeczywiście to zadziała.



2023-04-26 19:42

#327 djdenismusic

A ja mam problem z pobraniem modelu large. niby sie pobiera, ale potem wywala błąd o braku zgodności sum kontrolnych. da się to to jakoś ręcznie wgrać dla jego?



2023-04-27 05:23

#328 Piciok

No i jest wersja 0.8.0. Obiecane zmiany zostały wprowadzone, ale problemy są nadal.
1. Niby naprawiono Whispera.CPP i wprowadzono Faster, ale program wykrzacza się przy próbie pobrania jakiegokolwiek modelu.
2. Skróty klawiszowe są, ale po pierwsze pola edycji do ich modyfikacji nie są dostępne, więc nie da się przeczytać co aktualnie jest ustawione no i nie ma skrótu dla opcji eksportu. To istotne, bo...
3. Fajny nowy edytor transkrypcji wygląda jak Poedit prawie, czyli jest kolejną tabelką gdzie pierwsza kolumna to znacznik początku, druga to znacznik końca, a trzecia to tekst. F2 można edytować i wszystko spoko, ale znów przycisk "Export" wylądował na pasku narzędzi, który nie jest dostępny z klawiatury.
4. Drobna sprawa, ale zepsuło się ctrl+o. Nadal można importować z menu plik.
Z fajnych rzeczy program jest po polsku i pozwala na automatyczny eksport transkryptu do wszystkich wspieranych formatów bez konieczności ręcznego eksportu, ale jeszcze nie bawiłem się tym, więc nie wiem gdzie to zapisuje.
Wszystko zgłosiłem autorowi. Zwłaszcza w kwestiach dostępności sam pytał czy wszystko w porządku, więc jest wola zmian.
Echhh...



2023-04-30 22:10

#329 Numernabis

A ja tego spolszczonego nie mogę ugryźć.
W angielskiej wersji 7.2 po załadowaniu pliku i modelu klikałem record i po pewnym czasie miałem tekst, a teraz klikam nagraj to otwiera mi się nagrywanie na żywo.
O co w tym chodzi. No i mam ustawiony domyślnie mikrofon Realtek High definition .
Co mam klikać żeby przerobiło mi na tekst?


Znajdź sobie zajęcie, które kochasz, a nie przepracujesz w życiu ani jednego dnia.
2023-04-30 23:02

#330 Piciok

Menu >> Plik >> Importuj Plik i dalej już znajomą ścieżką, ale po polsku. :)



2023-04-30 23:19

#331 mateponczas

Oj, program jest niezbyt dobry do pokazywania, chyba autor przedwcześnie go wypuścił, takie błędy nie powinny mieć w ogóle miejsca, u mnie nic nie przekształcił, unknown error.



2023-05-01 08:42

#332 Piciok

Dobra, powoli wychodzi wersja 0.8.1 gdzie przynajmniej częściowo zdaje się być naprawione pobieranie modeli. Mówię częściowo, bo pobieranie Large modelu Faster Whisper nadal wywala program. To nie koniec problemów. Próba transkrypcji jakimkolwiek modelem pod CPP kończy się szybko. Mija sekundka, jest niby complete, a transkrypt pusty. Znowu Faster Whisper, dla którego udało mi się pobrać model Medium stoi na 0% ii ani nie śmie ruszyć. Oczywiście wszystko zgłosiłem, więc czekamy.
Pytaliście również skąd Buzz bierze modele oraz gdzie je zapisuje, gdyby ktoś chciał pobrać na własną rękę.
Modele pochodzą ze zbiorów projektu Hugging Face:
https://huggingface.co/datasets/
a przynajmniej te dla cpp zapisują się w:
C:\Users\HP\AppData\Local\Buzz\Buzz\Cache
i mają format nazwy
ggml-model-whisper-large.bin
gdzie large można zamienić na dowolny inny rozmiar.
Dokumentacja wspomina również o lokalizacji modeli standardowego Whispera, ale nie mogę tego katalogu znaleźć pod Windows.



2023-05-01 11:01

#333 Paulinux

O żesz kurde, ten edytor transkrypcji naprawdę kusi. Chyba pora się tym faktycznie zainteresować


Happy hacking
2023-05-02 04:13

#334 mateponczas

U mnie jest napisane failed podczas transkrybcji dowolnego pliku. Nie wiem, dlaczego tak jest.



2023-05-02 06:39

#335 Piciok

Także dowolną implementacją i modelem?
-- (mateponczas):
U mnie jest napisane failed podczas transkrybcji dowolnego pliku. Nie wiem, dlaczego tak jest.

--



2023-05-02 10:36

#336 mateponczas

Tak, także dowolną implementacją i modelem.



2023-05-02 11:40

#337 mojsior

Mateuszu błędy się mogą trafić wszędzie, a zwłaszcza w programach, które no cóż wykonują skomplikowane operacje.
Gdyby to był program płatny, no to wtedy można by powiedzieć, że takie rzeczy nie powinny mieć miejsca, alę że program jest darmowy i autor poświęca na jego rozwój swój cenny czas, to jak najbardziej może sie takie coś zdarzać.
Ważne, że szybko reaguje na zmiany.
Spójrz na microsoft i windowsa, tam robal pogania robala i robi się istny worms armageddon .



2023-05-02 14:48

#338 djdenismusic

A gdzie są trzymane modele dla zwykłego whispera? PObrał mi się kiedyś niekompletny model large, i teraz program myśli, że takowy istnieje, jednak podczas próby transkrybcji czegokolwiek wywala błąd.
Oczywiście próba ponownej instalacji buzz na niewiele się zdała.



2023-05-09 00:55

#339 daszekmdn

Potrzebuję na gwałt. Jest opcja jakaś żeby tego użyć bez karty graficznej?


Koniec kropka, idź do żłobka. A ze żłobka na ulicę, i pocałuj babę w cyce.
2023-05-28 13:12

#340 AXM04

Whisper C++ działa na procku tylko, stego co pamiętam.
-- (daszekmdn):
Potrzebuję na gwałt. Jest opcja jakaś żeby tego użyć bez karty graficznej?

--


"Dies irae, dies illa,..."
2023-05-28 13:22