Dobry to mało powiedziane. Chcąc robić coś na podobnym poziomie na własnym sprzęcie trzeba najpierw sobie taki syntezator zrobić, bo o ile mi wiadomo, nie ma do pobrania polskiego modelu tej jakości. Trening to najpierw potrzeba co najmniej kilku tysięcy godzin dobrej jakości czytania zsynchronizowanego z tekstem, czyli trochę jak w RH - Od tej do tej sekundy mamy powiedziene co następuje i tak przez całe te setki i tysiące godzin nagrań.
Sam trening to zapewne sporo pracy komputera jakości uczelnianej czyli coś takiego, czego nikt raczej w domu nie ma. Kilkanaście, może więcej kart jakby graficznych pracujących prawdopodobnie tygodniami żeby to miało jakiekolwiek ręce i nogi.
Potem dopiero można syntezę robić i tu też kilka problemów. Po pierwszy, puki co, syntezatory nie rozumieją jeszcze, o czym czytają. To trochę tak jakby świetny lektor nasłuchał się i naczytał np. angielskiego bez znajomości języka. Mając wybitne umiejętności w zakresie naśladowania akcentu zapewne prawidłowo będzie czytał pod względem językowym. Jeśli nasłucha się kryminałów czy innych książek z mocniejszą akcją zapewne zauważy, że określenia w rodzaju "I kill you!" z reguły są czytane dość ostro, a "I love you" zdecydowanie inaczej. nie musi tego rozumieć, wystarczy, że załapie, że są tego rodzaju reguły, ale problem w tym, że nie wszystko tak się da. Jeśli przyjdzie do jakichś bardziej skomplikowanych kwestii typu, że jeden z drugim żartują sobie z tekstów w rodzaju "I kill You" względnie "I love You" zapewne niekoniecznie wychwici, że akurat w tym momencie trzeba to przeczytać inaczej, np. ironicznie. podejrzewam, że gdyby jakoś spiąć model językowy w stylu Chata GPT z syntezą w taki sposób, że Chat będzie określał jak syntezator ma czytać dane zdanie czy tam akapit to może faktycznie coś z tego być. Jeśli chcesz więcej przykładów sztucznej inteligencji czytającej różności to możesz odwiedzić tutejszy blog. Chyba się nazywa "pobawmy się AI". Tam jest sporo różnych eksperymentów i jakkolwiek można się czepiać strony językowej i generalnie merytorycznej to dość dobrze pokazuje to na jakim poziomie są teraz algorytmy od sztucznych głosów.