Whisper czyli nowe fajne do rozpoznawania mowy
Back to Nowości, odkrycia, newsy#301 AXM04
Na moje powinno to wyglądać tak:
whisper.cpp -m ggml-medium.bin -f test.wav -t 14 -l pl -otxt
-- (balteam):
Przeczytaj wszystko od wpisu nr 250, ja może napiszę, co do lini, to nie dodałem takiej komendy, teraz wygląda ona tak:
whisper.cpp -m ggml-medium.bin test.wav -t 14 -l pl -ot t
czy git czy jeszcze coś?
Jak pisałem symbole dziwne zamiast polskich znaków są
--
#302 matius
Jaka jest najnowsza wersja pytorh, bo jak wpisuje wszystko jak w artykule to mi mówi, że nie znalazło wersji w indeksie.
#303 Piciok
Hej!
Ostatnie wersje programu Subtitle Edit do tworzenia napisów wspierają Whispera.CPP. Program asystuje w pobieraniu Whispera i modeli no i pozwala na transkrypcję plików audio i video. U mnie niestety strasznie powoli działa, może macie lepsze sprzęty i Wam pójdzie szybciej.
https://github.com/subtitleEdit/subtitleedit/
#304 Piciok
No i moje ostateczne starcie programów do obsługi Whispera z tradycyjnego interfejsu bez konieczności otwierania wiersza poleceń wygrywa Buzz. Aplikacja jest darmowa i open source, wszystko zawiera w sobie lub pobiera za nas, pozwala na transkrypcję wszystkiego co wspiera FFMPEG i eksportuje do typowych dla Whispera formatów. Do niektórych miejsc trzeba niestety dotrzeć nawigacją obiektową NVDA czy innego czytnika, ale większość operacji da się wykonać z klawiatury. To co nie działa będę zgłaszał.
Repozytorium na Githubie:
https://github.com/chidiwilliams/buzz
Najnowsze na dzień dzisiejszy wydanie na Windowsa:
https://github.com/chidiwilliams/buzz/releases/download/v0.7.2/Buzz-0.7.2-windows.exe
Na moim lapku z I5 około godzinny plik robił się około 4 godzin, ale domyślam się, że lepiej nie będzie.
Miłego korzystania!
#305 tomecki
Na którym modelu?
#306 Piciok
Large
#307 tomecki
No to nieźle.
#308 Piciok
Teraz kolejny, półgodzinny robił się około 3 godzin, ale tam było dość niepewne otoczenie: głosy z odległości, echo w pomieszczeniu, głos syntezatora itp. Zaraz sprawdzę wynik.
#309 Pitef
U mnie najpierw zaciągał sobie model Large, teraz robi już godzinkę 2 godzinny materiał i jest 67%
#310 mojsior
oo zajebiście tego trza było, no to do dzieła
#311 Pitef
Gdzie znaleźć plik/ pliki wynikowe?
#312 Piciok
Po ukończeniu transkrypcji kliknij nawigacją obiektową NVDA na przycisk "Open Transcript" na pasku narzędzi, następnie otworzy się okno z transkryptem, a pod Tab będzie przycisk "Export", otworzy się menu kontekstowe, z którego będziesz mógł wybrać w jakim formacie chcesz wynik. Potem już standardowe okienko zapisywania.
#313 mateponczas
Da się jakoś kliknąć na ten pasek narzędzi z JAWS?
#314 mojsior
no pewnie skoro z nvda sie da to i z jawsem tymbardziej
#315 mateponczas
A powiesz mi, jak w to kliknąć? Próbowałem już kilku podejść i nic. JAWS w ogóle nie widzi tego okna spod myszki.
#316 djdenismusic
Tego mi było trzeba. Zaraz sobie dla testów machnę jakiś ttyfloprzeglądzik, i zobaczymy możliwości mojego komputera.
#317 mateponczas
A czy wiadomo, czy program pobiera najnowsze modele?
#318 mojsior
nie wiem jak z jawsem ale z czytnikiem zdsr można bardzo prosto do wszystkiego dojść.
Generalnie zaexportowanie pliku jest proste jak budowa cepa.
w zdsr wybierasz sobie navigacje po elementach, i jak się skończy plik przerabiać dochodzisz truką numeryczną albo jedynką do czegoś co będzie listą gdzie jest ten plik.
To jest w sekcji status, tak prawie ku końcowi ekranu.
Najeżdżasz sobie na plik, to się powinno nazywać na przykład mojplik completed i klikasz w to dwa razy, no i potem z pod taba dajesz export i wybierasz format no i potem już jest łatwo.
#319 mojsior
Swoją drogą mam takie ale, może to jest kwestia whispera, a może tej apki.
Przetranskrybowałem sobie plik wave który miał tam chyba coś o koło ółtorej minuty może mniej.
No na moim obciążeniu procesora, które było na poziomie 56 może 8 procent plik robił się równe 5 minut.
Po przerobieniu i exporcie do pliku txt miałem parę zdań całkiem ładnie rozpoznanych, ale o zgrozo wszystko wpieprzone w jedną linijkę i chyba pozbawione interpunkcji.
Więc text jest sobie jednoliniowy.
Robiłem to na modelu medium z użyciem tradycyjnego whispera, który pewnie użył cpu a nie gpu, bo moja karta graficzna cudo nie wspiera.
Więc jak to z tymi linijkami wygląda i interpunkcją, whisper to potrafi czy nie.
A może to kwestia modelu i sprzętu na którym się to rozpoznało.
#320 papierek
Jak ten program ładnie poprosić, żeby korzystał dajmy na to z modelu whisper cpp, a nie zwykłego whispera?
Do wyboru mam tylko whisper, coś z face i whispe Open AI
-- (Piciok):
No i moje ostateczne starcie programów do obsługi Whispera z tradycyjnego interfejsu bez konieczności otwierania wiersza poleceń wygrywa Buzz. Aplikacja jest darmowa i open source, wszystko zawiera w sobie lub pobiera za nas, pozwala na transkrypcję wszystkiego co wspiera FFMPEG i eksportuje do typowych dla Whispera formatów. Do niektórych miejsc trzeba niestety dotrzeć nawigacją obiektową NVDA czy innego czytnika, ale większość operacji da się wykonać z klawiatury. To co nie działa będę zgłaszał.
Repozytorium na Githubie:
https://github.com/chidiwilliams/buzz
Najnowsze na dzień dzisiejszy wydanie na Windowsa:
https://github.com/chidiwilliams/buzz/releases/download/v0.7.2/Buzz-0.7.2-windows.exe
Na moim lapku z I5 około godzinny plik robił się około 4 godzin, ale domyślam się, że lepiej nie będzie.
Miłego korzystania!
--