Forum

Sztuczna inteligencja jako lektor audiobooków

Numernabis

#1 · 2023-10-10 18:17

Sztuczna inteligencja jako lektor.
Nadchodzi nowa era audiobooków, tylko patrzeć jak nastąpi wysyp audiobooków czytanych przez sztuczną inteligencję, poniżej link do próbki, brzmi to naprawdę świetnie i osobiście jestem za.
Nie wiem jakie są koszty gdyby przeciętny Kowalski chciał sam przekonwertować swoje pliki txt stosując sztuczną inteligencję,na pewno jednak potrzebny jest dobry sprzęt i póki co jest to mocno czasochłonne.

https://www.dropbox.com/scl/fi/9big55zs5szijbkpkkt0q/Sztuczna-inteligencja-jako-lektor.mp3?rlkey=k0qx8s0y6q3bccz0dx3koydmz&dl=1

tomecki

#2 · 2023-10-10 18:41

1 likes

Dobry to mało powiedziane. Chcąc robić coś na podobnym poziomie na własnym sprzęcie trzeba najpierw sobie taki syntezator zrobić, bo o ile mi wiadomo, nie ma do pobrania polskiego modelu tej jakości. Trening to najpierw potrzeba co najmniej kilku tysięcy godzin dobrej jakości czytania zsynchronizowanego z tekstem, czyli trochę jak w RH - Od tej do tej sekundy mamy powiedziene co następuje i tak przez całe te setki i tysiące godzin nagrań.
Sam trening to zapewne sporo pracy komputera jakości uczelnianej czyli coś takiego, czego nikt raczej w domu nie ma. Kilkanaście, może więcej kart jakby graficznych pracujących prawdopodobnie tygodniami żeby to miało jakiekolwiek ręce i nogi.
Potem dopiero można syntezę robić i tu też kilka problemów. Po pierwszy, puki co, syntezatory nie rozumieją jeszcze, o czym czytają. To trochę tak jakby świetny lektor nasłuchał się i naczytał np. angielskiego bez znajomości języka. Mając wybitne umiejętności w zakresie naśladowania akcentu zapewne prawidłowo będzie czytał pod względem językowym. Jeśli nasłucha się kryminałów czy innych książek z mocniejszą akcją zapewne zauważy, że określenia w rodzaju "I kill you!" z reguły są czytane dość ostro, a "I love you" zdecydowanie inaczej. nie musi tego rozumieć, wystarczy, że załapie, że są tego rodzaju reguły, ale problem w tym, że nie wszystko tak się da. Jeśli przyjdzie do jakichś bardziej skomplikowanych kwestii typu, że jeden z drugim żartują sobie z tekstów w rodzaju "I kill You" względnie "I love You" zapewne niekoniecznie wychwici, że akurat w tym momencie trzeba to przeczytać inaczej, np. ironicznie. podejrzewam, że gdyby jakoś spiąć model językowy w stylu Chata GPT z syntezą w taki sposób, że Chat będzie określał jak syntezator ma czytać dane zdanie czy tam akapit to może faktycznie coś z tego być. Jeśli chcesz więcej przykładów sztucznej inteligencji czytającej różności to możesz odwiedzić tutejszy blog. Chyba się nazywa "pobawmy się AI". Tam jest sporo różnych eksperymentów i jakkolwiek można się czepiać strony językowej i generalnie merytorycznej to dość dobrze pokazuje to na jakim poziomie są teraz algorytmy od sztucznych głosów.

tomecki

#3 · 2023-10-10 18:43

Inna rzecz, że to się dość dynamicznie zmienia i to, co teraz uważane jest za ostateczną granicę już za parę miesięcy może być już normą. Tak, czy inaczej takie faktycznie dobre czytanie beletrystyki sztucznymi głosami to nie jest taka bardzo prosta sprawa. Wydaje mi się, że da się coś takiego zrobić dobrze, ale trzeba w to włożyć sporo pracy.

Numernabis

#4 · 2023-10-10 19:00

W każdym bądź razie daje to możliwość uzyskania audiobooków do tej pory nieosiągalnych. Zapewne taniej i szybciej, a co za tym idzie - więcej.

Kat

#5 · 2023-10-10 20:49

Brzmi naprawdę dobrze, choć nie znam się na technicznych niuansach tworzenia głosów itd. to jednak jest to całkiem dobre rozwiązanie, ale czy nie generuje większych kosztów?

Numernabis

#6 · 2023-10-10 21:24

Nie sądzę, bo nawet płacą jakąś licencję płacimy jedną i nie są to na pewno koszty jakie pochłania lektor za jeden tytuł.
Nie zastąpi to człowieka, choć kto wie, jeszcze niedawno nikt nie pomyślałby, że sztuczna inteligencja będzie w stanie tak dobrze i w ogóle przeczytać audiobooka.

Film "Terminator" powoli staje się rzeczywistością.

tomecki

#7 · 2023-10-11 13:18

Koszty są... mniejsze jeśli to zwyczajnie przepuścisz przez takie coś. Możliwe, że podobne lub większe jeśli będziesz się bawić w oznaczanie zdań z konkretnymi emocjami, generowanie różności po kilka razy coby w końcu znaleźć najlepiej przeczytane itd.

longshoot

#8 · 2025-11-06 04:30

eleven reader pewnie używany jest do tego.

Numernabis

#9 · 2025-11-06 18:03

Na pewno nie - nie ta klasa, to zupełnie inna para kaloszy i trzeba mieć do tego mocny sprzęt.

EugeniuszPompiusz

#10 · 2025-11-07 18:04

Dorzucę troszkę dziegciu do tych ochów i achów, bo wszystko byłoby fajnie, gdyby było to wolą, lub przynajmniej sytuacją akceptowaną przez autora.
Wydawnictwa naprawdę cenione i szanowane najwyraźniej z tak elementarną formalnością mają problem:
tu źródełko popularne:

https://kultura.onet.pl/wiadomosci/kasia-bulicz-kasprzak-krytykuje-audiobook-plewy-glos-wygenerowany-przez-ai/nvhk2ce

a tu o tej samej sprawie, z portalu bardziej branzowego:
https://www.nexto.pl/blog/sztuczna-inteligencja-w-roli-lektora.xml

Numernabis

#11 · 2025-11-07 18:21

Nie wiem gdzie Ty się dopatrzyłeś tych ochów i achów, bo ja nie widzę.
Pisząc, że jestem za nie miałem na myśli zastąpienia lektorów, ale fakt, że można będzie w ten sposób przekonwertować tekst na audio w sposób przyjazny dla ucha, że nie będzie to jak z syntezą bez emocji.
Poza tym wolę już kiedy czyta AI niż to co robią np. Storytel, że czyta synteza.

balteam

#12 · 2025-11-07 18:22

A czy autorzy muszą się zgodzić na audiobooka, czy mogą odmówić? Jeśli nie trzeba się ich pytać o zgodę, to i w tej kwestii, zwłaszcza jeśli ai dobrze zrobi audiobooka, nie mam problemu z tym, ale zastrzegam, że nie wiem jak to całe brzmi.

Zuzler

#13 · 2025-11-07 18:27

Edytowano

E, nie wiem, co to miałaby być za książka, którą AI dobrze przeczyta, zinterpretuje, będzie intonować. Chyba jakaś literatura naukowa, gdzie nie potrzebne jest świadome granie głosem.

Numernabis

#14 · 2025-11-07 20:17

No nie do końca Zuzler, bo i czyta bardzo dobrze sensacje, fantastykę, pojawiają sięw coraz większej ilości książek.
Obyczajówki również.
Brzmi to dobrze, w nie jest pozbawione wad, ale i lektorzy nie zawsze interpretują właściwie, a są i tacy, którzy w ogóle nie powinni siadać przed mikrofonem i w takich przypadkach zdecydowane tak dla A.I.

Numernabis

#15 · 2025-11-08 10:36

Poniżej próbka A.I. w krótkim opowiadaniu sensacyjnym:
https://mega.nz/file/Hp9mEJqR#6imXwOYBAk95QnzTGSG0Gd3dT1B8N-2qMfgFaHmdhfE
Hasło do paczki:
Elten1!

Numernabis

#16 · 2025-11-11 10:37

AI jak podałem wyżej to naprawdę mcoś co można słuchać z przyjemnością, ale zobaczcie co robią, już pisałem o Storytel, ale Empik GO również lecą w kulki:
Fala Życia
AI Lektor
A to nie AI tylko zwykła synteza, Zosia chyba, bo tych głosów nie znam, nie korzystam, ale to nie AI, jest tam przycisk "Posłuchaj"
https://www.empik.com/fala-zycia-jack-jacob,p1685328418,ebooki-i-mp3-p

Kat

#17 · 2025-11-11 14:35

@Numernabis, to nawet nie jest Zosia, tylko Paulina, dramat i tragedia, nie słuchałabym za żadne pieniądze, ani nawet za darmo.
-- (Numernabis):
AI jak podałem wyżej to naprawdę mcoś co można słuchać z przyjemnością, ale zobaczcie co robią, już pisałem o Storytel, ale Empik GO również lecą w kulki:
Fala Życia
AI Lektor
A to nie AI tylko zwykła synteza, Zosia chyba, bo tych głosów nie znam, nie korzystam, ale to nie AI, jest tam przycisk "Posłuchaj"
https://www.empik.com/fala-zycia-jack-jacob,p1685328418,ebooki-i-mp3-p

--

Numernabis

#18 · 2025-11-11 20:13

No właśnie, wiedziałem, że gdzieś dzwoni, ale nie wiedziałem w którym kościele, i koszt od 24 zł, ma-sa-kra.