EltenLink

Whisper czyli nowe fajne do rozpoznawania mowy

Wróć do Nowości, odkrycia, newsy

#1 tomecki

Po pierwsze puki co wymaga instalacji9 Pythona i w ogóle grzebania się w konsoli. Po drugie niby nie wymaga, ale dobrze jest mieć solidną grafikę. Solidną znaczy w przypadku, gdy chcemy mieć najlepsze wyniki ponoć co najmniej 12gb Vram.
Z tego, co widziałem w demówkach to po angielsku umie rozpoznać tekst piosenki, a to już dużo, bo Google się na tym konkretnie wywala. Umie to to duużo języków, w tym polski, a wisienką na torcie niech będzie fakt, że próbuje wstawiać interpunkcję, prostować pomyłki i nie przejmować się eee... yyy...
Na RTX 3090 działało to to mniej więcej półtora raza szybciej niż czas rzeczywisty czyli godzinę zrobi w niecałe 50 minut. Na potworze, jakim jest a5000 to już ponad trzy razy szybciej czyli godzinkę audio ogarnie w niecałe 20 minut. To są staty dla najmocniejszego modelu, a takowych jest chyba pięć. Ciekawe czy w Eltenie nie dałoby się czegoś takiego zaimplementować. Wiem, przeszkodą brak porządnego GPU więc albo ściepa narodowa, która, znając życie średnio wyjdzie albo jakiś projekt np. na pomoc głuchym lub głuchoniewidomym w życiu coby se mogli podcasty poczytać.



2022-09-29 07:37

#2 Paulinux

Gdyby to była zrzuta, to najpewniej by trzeba było zrobić to typowo po usługowemu, czyli np. miesięczna subskrypcja ceną zależna od liczby ludzi, którzy by się na to składali. No ale cóż, to by trzeba było od razu wiedzieć, ile ludzi jest potencjalnie zainteresowanych, tylko żeby się nie okazało że będzie jak ze zlotem.


Happy hacking
2022-09-29 09:50

#3 balteam

Oddzielna zbiórka to raczej nie wchodzi w grę, ja sobie mam sponsora i na pewno nie chce mi się dopłacać, asponsorów jest ponad 50. Moim zdaniem miało by to tylko sens jeśłi by dodać do sponsora, albo do tego pakietu za 160 zł. Też pod warunkiem, że zdeklarowało by się ileś ludzi bez sponsora, że go wtedy kupi.
Innymi słowy szansa mała, ale pomysł na jakiś projekt może by miał sens, z tym, że niewidomi i głusi na apce bez obrazu trochę się wykluczają.


Zapraszam osoby posiadające piesy, lub chcące je posiadać, do dołączenia do grupy o psach przewodnikach.
2022-09-29 09:59

#4 tomecki

Ale to nie musi być wyłącznie w Eltenie. Dla głuchych może być jakaś oddzielna usługa. Do tego może coś do automatycznego tworzenia napisów, bo to też potrafi wskazać dokładny czas więc dałoby się nie tylko takie napisy tworzyć, ale np. wyszukać konkretne sformułowanie w pliku i od tego miejsca słuchać.



2022-09-29 10:08

#5 Paulinux

No i głuchoniewidomi by mieli jakikolwiek sposób na odbiór audio, jeśli oczywiście znają brajla. Inna sprawa, że chyba prościej by było sobie wynająć maszynę wirtualną na chwilę.


Happy hacking
2022-09-29 10:14

#6 tomecki

Owszem, o ile wiesz, jak to się robi i chcesz instalować skrypty Pythonowskie.



2022-09-29 11:35

#7 zywek

Ojej, to ja nawt tego próbował nie będę.



2022-09-29 21:34

#8 pajper

Serwer Eltena nie ma żadnego GPU, bo nigdy nie było potrzeby. Na modelu large dwie pierwsze minuty Tyfloprzeglądu rozpoznawały się ponad godzinę, więc w tym przypadku to nie ma sensu.

Ale projekt naprawdę, naprawdę fajny.


#StandWithUkraine

Shoot for the Moon. Even if you miss, you'll land among the stars.
2022-09-30 16:35

#9 pajper

Patrzyłem na koszty i możliwości. Generalnie projekt jest bardzo fajny, ale z racji ogromnych wymagań, jego możliwości są bardzo ograniczone.
Żeby go wdrożyć do Eltena np. do natychmiastowej transkrypcji wiadomości audio, musielibyśmy zapłacić za serwer nawet 5 razy tyle, co obecnie. :(


#StandWithUkraine

Shoot for the Moon. Even if you miss, you'll land among the stars.
2022-09-30 19:26

#10 balteam

Kurde, ale dobre to by było na forum głosowe :)


Zapraszam osoby posiadające piesy, lub chcące je posiadać, do dołączenia do grupy o psach przewodnikach.
2022-09-30 19:34

#11 pajper

Podrzucam jako przykład transkrypcję ostatniego Tyfloprzeglądu, wykonaną na jednym z najniższych profili dokładności, czyli base.
Później podrzucę dla porównania na wyższym. :)


#StandWithUkraine

Shoot for the Moon. Even if you miss, you'll land among the stars.
2022-10-01 08:09

#12 DJGraco

Ej no, wyszło to genialnie! Z drobnymi błędami czasami wiadomo, ale to są takie błachostki, że hej!



2022-10-01 09:09

#13 balteam

No, trochę ich jest. Do zwykłej rozmowy bez nieznanhych słów, pewnie by stykło, ale do książki już niekoniecznie.
Czekam na najlepszą prubkę.


Zapraszam osoby posiadające piesy, lub chcące je posiadać, do dołączenia do grupy o psach przewodnikach.
2022-10-01 09:20

#14 tomecki

Ile to czasu potrwało?



2022-10-01 11:05

#15 pajper

4 godziny, ale ja to robiłem na MacBooku bez GPU, bo nie mam przy sobie XPS-a. Dzisiaj wracam do Bolszewa i przerzucę na Dellu, który ma dość dobrą grafikę, więc efekt będzie prawdopodobnie nieporównywalny.


#StandWithUkraine

Shoot for the Moon. Even if you miss, you'll land among the stars.
2022-10-01 11:12

#16 tomecki

Jaką? pytam, bo mi się to też może przydać, bo sam mam 3070ti w Asusie i chętnie też dołączę do testów. Muszę tylko przegryźć się przez użycie Cuda w WSL2 chyba, że można to na Win.



2022-10-01 12:07

#17 pajper

To będziesz miał jeszcze lepsze wyniki, ja mam 1650 OC.
A na Windowsie śmiga bez problemów.


#StandWithUkraine

Shoot for the Moon. Even if you miss, you'll land among the stars.
Edytowano 2022-10-01 13:36

#18 pajper

Co do piosenek, podrzucam audio i poniżej transkrypcję, puszczone na najwyższej dokładności. ;)
Spróbuję jeszcze z czymś polskim potem.

https://www.youtube.com/watch?v=B_zMYSMmLDM

You've set a course to go On a one in a million flight
Taken by the one Who brings the morning light
It was time for you to leave There's nothing we can do
Except feel a sense of courage And play this song for you
Here's a message to you Let us all sing out your names
Sing them very loud We're all so proud
Here's a message to you Life's all with us every day
The next step won't be long We must go on
We've answered all our prayers You're bound to hear us now
Heroes for your country You tried to teach us how
But the sun will always shine And souls will always live
All our breathing hearts Is what we have to give
Here's a message to you We're calling out your name
Here's a message to you The whole world feels the same
Here's a message loud enough There is no one to blame
Here's a message to you Let us all sing out your names
Sing them very loud We're all so proud
Here's a message to you Life's all with us every day
The next trip won't be long We must go on
Here's a message to you
We've saved a course to go On a one in a million flight
Taken by the one Who brings the morning light
It was time for you to leave There's nothing we can do
Except feel a sense of courage And play this song with you
Here's a message to you Let us all sing out your names
Sing them very loud We're all so proud
Here's a message to you Life's all with us every day
The next trip won't be long We must go on
Here's a message to you Let us all sing out your names
Sing them very loud We're all so proud
Here's a message to you Life's all with us every day
The next trip won't be long We must go on
We will go on


#StandWithUkraine

Shoot for the Moon. Even if you miss, you'll land among the stars.
2022-10-01 13:46

#19 tomecki

Zainstalowałem to sobie i mam kilka problemów. Tak w ogóle to to działa, ale co zrobić żeby używało to GPU, bo domyślnie na CPU jedzie? mówię o exeku dostarczanym w paczce. Druga rzecz to czas na początku każdej linijki. Jest możliwość wywalenia tego? do testów to niepotrzebne, a trochę denerwuje.



2022-10-01 17:31

#20 Paulinux

Możesz to sobie uwalić na poziomie postprodukcji, jakimś notepadem plus plus czy coś


Happy hacking
2022-10-01 17:48