Whisper czyli nowe fajne do rozpoznawania mowy
Wróć do Oprogramowanie#341 zvonimirek222
Każdy whisper może działać na procku i na karcie graficznej. Mam serwer, który jest akurat gwałcony pod procek.
#342 daszekmdn
Ktoś podlinkuje pełną instrukcję używania na procesorze i wszystkie pliki? Przeglądanie 300 postów jest bez sensu, to też pytam. Zaktualizuję w tedy też pierwszy post aby każdy mógł do tego dotrzeć bez czytania wszystkiego.
#343 lalar123
Ja nie mam tyle ram więc pytam czy jest jakiś whisper online albo jakiś nieco no nie wiem dobry dla osiem giga ram? gdyby co to wklejam info o systemie tutaj.
Nazwa systemu operacyjnego Microsoft Windows 10 Pro
Wersja 10.0.19045 Kompilacja 19045
Dodatkowy opis systemu operacyjnego Niedostępne
Producent systemu operacyjnego Microsoft Corporation
Nazwa systemu ADMIN-KOMPUTER
Producent systemu Dell Inc.
Model systemu OptiPlex 3010
Typ systemu x64-based PC
Jednostka magazynowa systemu
Procesor Intel(R) Pentium(R) CPU G640 @ 2.80GHz, 2800 MHz, Rdzenie: 2, Procesory logiczne: 2
Wersja/data systemu BIOS Dell Inc. A05, 2012-09-18
Wersja SMBIOS 2.7
Wersja kontrolera osadzonego 255.255
Tryb systemu BIOS Starsza wersja
Producent płyty głównej Dell Inc.
Produkt płyty głównej 042P49
Wersja płyty głównej A00
Rola platformy Komputer stacjonarny
Stan bezpiecznego rozruchu Nieobsługiwane
Konfiguracja PCR7 Powiązanie nie jest możliwe
Katalog systemu Windows C:\Windows
Katalog systemowy C:\Windows\system32
Urządzenie rozruchowe \Device\HarddiskVolume1
Ustawienia regionalne Polska
Warstwa abstrakcji sprzętu Wersja = "10.0.19041.3636"
Nazwa użytkownika admin-Komputer\USER
Strefa czasowa Środkowoeuropejski czas letni
Zainstalowana pamięć fizyczna (RAM) 8,00 GB
Całkowita pamięć fizyczna 7,97 GB
Dostępna pamięć fizyczna 3,71 GB
Całkowity rozmiar pamięci wirtualnej 16,0 GB
Dostępna pamięć wirtualna 11,5 GB
Obszar pliku stronicowania 8,00 GB
Plik stronicowania C:\pagefile.sys
Ochrona DMA jądra Wyłączone
Zabezpieczenia oparte na wirtualizacji Niewłączona
Obsługa szyfrowania urządzeń Przyczyny niepowodzenia automatycznego szyfrowania urządzenia: Nie można używać modułu TPM, Powiązanie PCR7 nie jest obsługiwane, Interfejs testowania zabezpieczeń sprzętowych nie powiódł się, a urządzenie nie jest w stanie wstrzymania., Wykryto niedozwoloną magistralę/urządzenia obsługujące technologię DMA, Nie można używać modułu TPM
Hyper-V — rozszerzenia trybu monitorowania maszyny wirtualnej Tak
Hyper-V — rozszerzenia translacji adresów drugiego poziomu Tak
Hyper-V — wirtualizacja włączona w oprogramowaniu układowym Tak
Hyper-V — zapobieganie wykonywaniu danych Tak
#344 Paulinux
Są colaby postawione z Whisperami, pogoogluj sobie
#345 Aoi
Witam pobrałem whisper na mac.
Mam pytanie czy jest wersja farmowa?
Czy musze wykupić subskrypcje?
Pozdrawiam
#346 stefan
Czy ktoś doradzi?
Do RTX 4070 Super
Jaka wersja Cuda? Czy może najnowsza 12.6
I do tego jak instalnąć Torcha
#347 stefan
Wychodzi na to, że cuda 12.4
ale nie mogę zainstalować przez pip torcha, nie wiem być może dlatego, że mam pod NVDA 32 bitowego Pythona.
#348 stefan
Rady się nie doczekałem, ale sobie poradziłem.
#349 daszekmdn
Ktoś mi powie jak to wygląda w 2025 i co ja mam w ogóle zainstalować bo tego cholerstwa się namnożyło jak mrówków?
Najmniej kodowania, kompilowania, grzebania i język Polski. Tyle mi trzeba. A, no i by leciało po GPU. I by leciało szybko, i bez internetu i syncowania czegoś tam przy transkrybowaniu.
Karta graficzna jeśli ma znaczenie: NVIDIA RTX A2000 12GB.
#350 vk
Axel zrobił bardzo fajny program.
#351 Adasadula
Instalujesz pinokio (taki hub do wszelkich lokalnych ej-jajców) - pinokio.co. Szukasz w zakładce discover whisper, pobierasz dokładnie whisper web ui, uruchamiasz, ustawiasz pod siebie i bangla. Jeśli jakaś niejasność jeszcze repo gitowskie ale najlepiej przez drewniaka kłamczucha ogarniać XD:
A, wygląda to tak jak wszelkie appki webowe oparte na gradio. Interface-em przypomina RVC:
https://github.com/jhj0517/Whisper-WebUI
-- (daszekmdn):
Ktoś mi powie jak to wygląda w 2025 i co ja mam w ogóle zainstalować bo tego cholerstwa się namnożyło jak mrówków?
Najmniej kodowania, kompilowania, grzebania i język Polski. Tyle mi trzeba. A, no i by leciało po GPU. I by leciało szybko, i bez internetu i syncowania czegoś tam przy transkrybowaniu.
Karta graficzna jeśli ma znaczenie: NVIDIA RTX A2000 12GB.
--
#352 djdenismusic
U mnie najlepiej sprawdza się oskryptowany whisper. Ten webowy robi jakieś jazdy z powtarzaniem fragmentów pliku, jak by się zaciął xd
#353 Pitef
Działa Denis, może u ciebie coś nie tak. Poza tym, jest też normalny Whisper GUI który jest fajnie dostępny.
#354 midzi
@Denis, powtarzanie tekstów szczególnie jeśli np. mamy syntezę w nagraniu wynika z parametru --condition_on_previous_text ustawionego na true. W zwykłych nagraniach z ludzką mową natomiast ten parametr poprawia rozpoznawalność, pewnie z webowego interfejsu, o którym wspominasz nie jesteś w stanie tego parametru zmienić i stąd problemy.
#355 daszekmdn
No to podaliście 3 rozwiązania. Czym jest oskryptowany Whisper, czym GUI. Bo ja nadal nie wiem co brać :D.
#356 Numernabis
Nie wiem czy to to samo, ale jeśli konwersja z audio to txt to ja używam Buzz i śmiga, można tam wybierać modele.
Aha, korzysta również z CPU, ja nie mam grafiki i leci na CPU, dłużej to trwa, ale działa.
Buzz-1.3.3-Windows-X64.zip (2.4 GB)
Link bezpośredni:
https://sourceforge.net/projects/buzz-captions/files/latest/download
Strona domowa:
https://sourceforge.net/projects/buzz-captions/files/