EltenLink

Whisper czyli nowe fajne do rozpoznawania mowy

Back to Nowości, odkrycia, newsy

#161 papierek

ale whisper ma tych danych chyba z 600000 godzin


po co mi sygnatura?
2022-10-06 11:20

#162 pajper

Są różne sieci neuronowe. Nie chcę wchodzić w nudne szczegóły, ale są takie, które się samoorganizują w oparciu o nowe dane i takie, które tego nie robią. Obydwa podejścia mają swoje zalety i wady. Whisper nie jest siecią samoorganizującą się.
Przy tym, jak już jest obciążający zasoby... Bardzo dobrze, to by dopiero był potworek.


#StandWithUkraine

Shoot for the Moon. Even if you miss, you'll land among the stars.
2022-10-06 12:34

#163 papierek

A nawet gdyby, to dane spływają od jednego urzytkownika, lokalnie. Czyli w efekcie żeby coś zmienić, potrzeba by bardzo, bardzo dużo przerobić, bo i tak jest ich ogromna ilość, przynajmniej w large. W tacotronie ma to sens, bo uczymy go nowych głosów. W każdym razie ciekawi mnie, skąd większa trudność w języku polskim. Czy wynika z mniejszej bazy danych, czy z trudności naszego języka. Docenił bym takie rozwiązanie, gdyby pozwalało działać w czasie rzeczywistym. Z drugiej strony, przy dobrej grafice może fajnie by było sobie wrzucać tam jakieś wykłady i potem przerobić to i zrobić sobie notatkę? Dużo szybciej przelecimy taki tekst przy użyciu nvda i wybierzemy z niego, co się nadaje na notatkę niż słuchając ewentualnego nagrania. To też dla tych, co mają problem z robieniem notatek w trakcie zajęć czy coś.


po co mi sygnatura?
2022-10-07 03:03

#164 papierek

Już nie mówiąc o wykładach z matematyki i podobnych, gdzie przy podawaniu różnych wzorów, przy liczeniu różnych rzeczy, o ile wykładowca się przykłada i mówi studentom, co właśnie robi na tablicy, byśmy mieli to potem zapisane słownie, ale łatwo by można wrócić do takich obliczeń bez potrzeby włączania nagrania, przewijania etc. Jedyny warunek, sensowny mikrofon i miejsce z przodu sali najlepiej, jakieś odszumienie i tak dalej. Pozostają kwestie pogłosów, ale myślę, że przy dobrze słyszalnej mowie nie będzie problemu.


po co mi sygnatura?
2022-10-07 03:06

#165 pajper

whisper bazuje w bardzo dużym stopniu na Mozilla CommonVoice, a tam polskich próbek nie ma bardzo dużo. W sensie jest tego trochę, ale w porównaniu z angielskimi to niebo a ziemia.

A co jeszcze ważniejsze, jest ich mała różnorodność.


#StandWithUkraine

Shoot for the Moon. Even if you miss, you'll land among the stars.
Edited 2022-10-07 06:32

#166 Pitef

To to od mozilli jeszcze działa? Bo może i bym się udzielił ze swoim voiceem.


Sygnatura? A co to jest i do czego :D
2022-10-07 09:07

#167 tomecki

Działa i nic nie zapowiada żeby działać przestało.



2022-10-07 13:44

#168 Paulinux

Tylko czy jak teraz ponagrywamy, to czy to zostanie wdrożone do whispera? Bo może się okazać że niestety, ale już za późno :D


Happy hacking
2022-10-07 14:37

#169 tomecki

Nawet jeśli nie do Whispera to pewnie gdzieś zostanie. Na Whisperze świat się nie kończy, a że dane na fajnej licencji to jest szansa, że sporo różnych projektów z tego skorzysta.



2022-10-07 15:43

#170 pajper

Tak, zostanie, choć nie wiem, kiedy Mozilla wyda następną wersję paczki.


#StandWithUkraine

Shoot for the Moon. Even if you miss, you'll land among the stars.
2022-10-07 20:41

#171 tomecki

Jakoś chyba co roku wydają.



2022-10-08 08:14

#172 tomecki

No i na zakończenie model large, ale tym razem rzecz zrobiona na Google Colab.



2022-10-09 16:15

#173 mateponczas

Z ciekawości, ile ci to zajęło?



2022-10-14 06:44

#174 papierek

Rozumiem, że żeby korzystać w ten sposób trzeba wykupić jednostki obliczeniowe?


po co mi sygnatura?
2022-10-14 14:28

#175 tomecki

Nie pamiętam dokładnie, ale jakoś trochę krócej niż trwała audycja.



2022-10-14 14:50

#176 midzi

Jak z pewnością niektórzy zauważyli, zaczynamy powoli wdrażać Whispera w audycje Tyflopodcastu. Docelowo chcę, żeby wersji tekstowych doczekały się wszystkie odcinki, ale to robota na miesiące, jeśli nie na lata, wziąwszy pod uwagę ilość materiału. Obecnie czekam jeszcze na komputer z RTX 3090, więc na razie korzystam z serwisu vast.ai.
To taka usługa, dzięki której możliwe jest wynajęcie karty graficznej na godziny, dobicie się tam po SSH i rozpoznanie tego, co chcemy. Przykładowo, na RTX 3090 możliwe jest uruchomienie 2 whisperów jednocześnie, każdy działa sobie z modelem large i zajmuje jakąś połowę zasobów. Prędkość rozpoznawania na tej karcie to mniej więcej 4X, a jak się dobrze trafi, to taką instancję można mieć za 8 centów za godzinę.



2022-10-28 02:32

#177 papierek

Fajne! Bardzo kibicuję tej inicjatywie! Proponuję zaczynać od najnowszyc i lecieć w dół, bo mniejsza szansa, że ktoś będzie odświerzał te starsze.


po co mi sygnatura?
2022-10-28 07:55

#178 papierek

Przeczytałem zrobiony tym podcast, super sprawa! Akurat ten o brajlu. Jasne, są błędy, a poza błędami czasem to, co ktoś mówi czytane jako transkrypcja jest dość, zabawne, ale duuużo prościej i szybciej udało mi się zapoznać z podcastem, który mnie w sumie interesował, a w innym wypadku nie chciało by mi się go słuchać! Bardzo, bardzo użyteczne wykorzystanie narzędzia.


po co mi sygnatura?
2022-10-28 08:22

#179 balteam

Tylko szkoda, że np. w przypadku tyflopodkastu czasami nie będzie wiadomo o jakim sprzęcie mowa jak tam będzie jakaś nazwa specyficzna, no ale potestuję.


Zapraszam osoby posiadające piesy, lub chcące je posiadać, do dołączenia do grupy o psach przewodnikach.
2022-10-28 09:56

#180 midzi

@balteam, jeśli ktoś się zgłosi i będzie chciał w ramach wolontariatu poprawiać te transkrypcje, to z pewnością nie odmówimy. :)



2022-10-28 11:59