Hogyan ismerjük fel a mesterséges intelligencia által létrehozott hangot?

A mesterséges hangintelligencia-technológiát jóra is lehet használni: az Apple Personal Voice funkciója például lehetővé teszi, hogy a saját hangunk egy olyan változatát hozzuk létre, amellyel a szöveget beszéddé alakíthatjuk át olyan emberek számára, akik elveszítik az önálló beszéd képességét.
Természetesen az éremnek van egy másik oldala is: a félretájékoztatás terjedésének lehetősége. Mivel a modern technológia segítségével túlságosan könnyen rávehető bárki, hogy bármit mondjon, hogyan bízhat meg abban, amit online hallgat?

Hogyan működnek a mesterséges intelligenciával működő hanggenerátorok

Más AI-modellekhez, például a szöveges és vizuális modellekhez hasonlóan a hangalapú AI-generátorok is hatalmas adathalmazokon betanított modelleken alapulnak. Ebben az esetben a modelleket más emberek beszédmintáin képzik ki.

Az OpenAI Whisper modelljét például 680 ezer órányi adat alapján képezték ki. Így nemcsak magukat a szavakat tanulja meg reprodukálni, hanem a beszéd egyéb elemeit is, például a hangszínt és a beszédtempót.
A technológia fejlődésével egyre nehezebb egy hamisítványt azonnal felismerni. Van azonban néhány figyelemre méltó furcsaság és hiba, amelyekkel a legtöbb hangalapú mesterséges intelligencia rendelkezik, és amelyek felismerése döntő fontosságúvá teszi annak megállapítását, hogy egy felvétel valódi vagy hamis.

Figyeljen a furcsa kiejtésre és tempóra

A mesterséges intelligenciamodellek elég jól utánozzák az emberi hangot, olyannyira, hogy néha nehéz megkülönböztetni őket. Azonban még mindig nehezen tudják reprodukálni azt, ahogyan mi beszélünk.
Ha kétségek merülnek fel, figyelje meg figyelmesen a beszélő személy „hangjának” hangsúlyait: Egy mesterséges intelligenciával rendelkező robot időnként rosszul ejthet ki egy szót úgy, ahogy a legtöbb ember nem. Igen, az emberek gyakran ejtenek ki rosszul szavakat, de figyeljünk oda azokra a hibákra, amelyek a mesterséges intelligencia számára sokkal szembetűnőbbek lehetnek.
A beszédtempó is befolyásolhatja a beszédet. Bár az AI egyre jobban utánozza a normál beszédtempót, furcsa szüneteket tart a szavak között, vagy természetellenes módon átugrik másokat.
Egy AI-modell kihagyhat egy szóközt két mondat között, ami azonnal elárulja (még egy olyan ember sem hangzik ennyire robotikusan, aki nem tud megállni).
Másrészt túl sokáig tarthat, amíg a következő szóra vagy mondatra lép. Bár a mesterséges intelligencia egyre jobban utánozza a természetes szüneteket és légzést (egyes alkalmazások már „lélegzetvételeket” illesztenek be beszéd előtt), a szavak között furcsa szüneteket is hallani fog, mintha a robot azt gondolná, hogy az emberek így beszélnek.

Minimális érzelmek és hangváltozatok

Emellett a hangalapú mesterséges intelligenciák gyakran kissé laposnak tűnnek. Nem arról van szó, hogy sokan nem meggyőzőek, de ha jól figyel, kevesebb hangszínváltozást vesz észre, mint amit a legtöbb embertől elvárna.
Vicces, hogy ezek a modellek milyen pontosan tudják reprodukálni valaki hangját, de gyakran nem találják el a célt, amikor a beszélő személy ritmusát és érzelmeit kell utánozniuk.

Elolvasom a cikket