EltenLink

Whisper czyli nowe fajne do rozpoznawania mowy

Back to Nowości, odkrycia, newsy

#301 AXM04

Na moje powinno to wyglądać tak:
whisper.cpp -m ggml-medium.bin -f test.wav -t 14 -l pl -otxt
-- (balteam):
Przeczytaj wszystko od wpisu nr 250, ja może napiszę, co do lini, to nie dodałem takiej komendy, teraz wygląda ona tak:

whisper.cpp -m ggml-medium.bin test.wav -t 14 -l pl -ot t
czy git czy jeszcze coś?
Jak pisałem symbole dziwne zamiast polskich znaków są

--


"Dies irae, dies illa,..."
2023-02-27 22:52

#302 matius

Jaka jest najnowsza wersja pytorh, bo jak wpisuje wszystko jak w artykule to mi mówi, że nie znalazło wersji w indeksie.


Sygnatura – Uczcij poległych i cierpiących ocalałych ciężką pracą, ponieważ porażka zawsze może się zdarzyć, jednak nigdy nie staraj się udawać, że jesteś doskonały, ponieważ prowadzi to do gorszego końca niż porażka, wiedzie na ścieżkę hańby i nikczemności.
2023-02-28 13:26

#303 Piciok

Hej!

Ostatnie wersje programu Subtitle Edit do tworzenia napisów wspierają Whispera.CPP. Program asystuje w pobieraniu Whispera i modeli no i pozwala na transkrypcję plików audio i video. U mnie niestety strasznie powoli działa, może macie lepsze sprzęty i Wam pójdzie szybciej.
https://github.com/subtitleEdit/subtitleedit/



2023-04-14 00:26

#304 Piciok

No i moje ostateczne starcie programów do obsługi Whispera z tradycyjnego interfejsu bez konieczności otwierania wiersza poleceń wygrywa Buzz. Aplikacja jest darmowa i open source, wszystko zawiera w sobie lub pobiera za nas, pozwala na transkrypcję wszystkiego co wspiera FFMPEG i eksportuje do typowych dla Whispera formatów. Do niektórych miejsc trzeba niestety dotrzeć nawigacją obiektową NVDA czy innego czytnika, ale większość operacji da się wykonać z klawiatury. To co nie działa będę zgłaszał.
Repozytorium na Githubie:
https://github.com/chidiwilliams/buzz
Najnowsze na dzień dzisiejszy wydanie na Windowsa:
https://github.com/chidiwilliams/buzz/releases/download/v0.7.2/Buzz-0.7.2-windows.exe
Na moim lapku z I5 około godzinny plik robił się około 4 godzin, ale domyślam się, że lepiej nie będzie.
Miłego korzystania!



2023-04-18 02:19

#305 tomecki

Na którym modelu?



2023-04-18 06:59

#306 Piciok

Large



2023-04-18 09:44

#307 tomecki

No to nieźle.



2023-04-18 09:49

#308 Piciok

Teraz kolejny, półgodzinny robił się około 3 godzin, ale tam było dość niepewne otoczenie: głosy z odległości, echo w pomieszczeniu, głos syntezatora itp. Zaraz sprawdzę wynik.



2023-04-18 13:41

#309 Pitef

U mnie najpierw zaciągał sobie model Large, teraz robi już godzinkę 2 godzinny materiał i jest 67%


Sygnatura? A co to jest i do czego :D
2023-04-18 14:19

#310 mojsior

oo zajebiście tego trza było, no to do dzieła



2023-04-18 20:50

#311 Pitef

Gdzie znaleźć plik/ pliki wynikowe?


Sygnatura? A co to jest i do czego :D
2023-04-19 08:14

#312 Piciok

Po ukończeniu transkrypcji kliknij nawigacją obiektową NVDA na przycisk "Open Transcript" na pasku narzędzi, następnie otworzy się okno z transkryptem, a pod Tab będzie przycisk "Export", otworzy się menu kontekstowe, z którego będziesz mógł wybrać w jakim formacie chcesz wynik. Potem już standardowe okienko zapisywania.



2023-04-19 15:04

#313 mateponczas

Da się jakoś kliknąć na ten pasek narzędzi z JAWS?



2023-04-19 19:51

#314 mojsior

no pewnie skoro z nvda sie da to i z jawsem tymbardziej



2023-04-19 20:42

#315 mateponczas

A powiesz mi, jak w to kliknąć? Próbowałem już kilku podejść i nic. JAWS w ogóle nie widzi tego okna spod myszki.



2023-04-19 22:12

#316 djdenismusic

Tego mi było trzeba. Zaraz sobie dla testów machnę jakiś ttyfloprzeglądzik, i zobaczymy możliwości mojego komputera.



2023-04-20 07:23

#317 mateponczas

A czy wiadomo, czy program pobiera najnowsze modele?



2023-04-20 07:38

#318 mojsior

nie wiem jak z jawsem ale z czytnikiem zdsr można bardzo prosto do wszystkiego dojść.
Generalnie zaexportowanie pliku jest proste jak budowa cepa.
w zdsr wybierasz sobie navigacje po elementach, i jak się skończy plik przerabiać dochodzisz truką numeryczną albo jedynką do czegoś co będzie listą gdzie jest ten plik.
To jest w sekcji status, tak prawie ku końcowi ekranu.
Najeżdżasz sobie na plik, to się powinno nazywać na przykład mojplik completed i klikasz w to dwa razy, no i potem z pod taba dajesz export i wybierasz format no i potem już jest łatwo.



2023-04-20 13:30

#319 mojsior

Swoją drogą mam takie ale, może to jest kwestia whispera, a może tej apki.
Przetranskrybowałem sobie plik wave który miał tam chyba coś o koło ółtorej minuty może mniej.
No na moim obciążeniu procesora, które było na poziomie 56 może 8 procent plik robił się równe 5 minut.
Po przerobieniu i exporcie do pliku txt miałem parę zdań całkiem ładnie rozpoznanych, ale o zgrozo wszystko wpieprzone w jedną linijkę i chyba pozbawione interpunkcji.
Więc text jest sobie jednoliniowy.
Robiłem to na modelu medium z użyciem tradycyjnego whispera, który pewnie użył cpu a nie gpu, bo moja karta graficzna cudo nie wspiera.
Więc jak to z tymi linijkami wygląda i interpunkcją, whisper to potrafi czy nie.
A może to kwestia modelu i sprzętu na którym się to rozpoznało.



2023-04-20 13:35

#320 papierek

Jak ten program ładnie poprosić, żeby korzystał dajmy na to z modelu whisper cpp, a nie zwykłego whispera?
Do wyboru mam tylko whisper, coś z face i whispe Open AI
-- (Piciok):
No i moje ostateczne starcie programów do obsługi Whispera z tradycyjnego interfejsu bez konieczności otwierania wiersza poleceń wygrywa Buzz. Aplikacja jest darmowa i open source, wszystko zawiera w sobie lub pobiera za nas, pozwala na transkrypcję wszystkiego co wspiera FFMPEG i eksportuje do typowych dla Whispera formatów. Do niektórych miejsc trzeba niestety dotrzeć nawigacją obiektową NVDA czy innego czytnika, ale większość operacji da się wykonać z klawiatury. To co nie działa będę zgłaszał.
Repozytorium na Githubie:
https://github.com/chidiwilliams/buzz
Najnowsze na dzień dzisiejszy wydanie na Windowsa:
https://github.com/chidiwilliams/buzz/releases/download/v0.7.2/Buzz-0.7.2-windows.exe
Na moim lapku z I5 około godzinny plik robił się około 4 godzin, ale domyślam się, że lepiej nie będzie.
Miłego korzystania!

--


po co mi sygnatura?
2023-04-24 15:34