szerző:
hvg.hu
Tetszett a cikk?

Szinte naponta meglep minket a mesterséges intelligencia (és persze a mögötte álló fejlesztők) azzal, hogy mi mindenre képes. Szingapúri kutatók egy fénykép és egy hangfelvétel alapján beszélő, valósághű arcokat tudnak „életre kelteni”.

Mintha csak egy varázslat lenne: a szingapúri Nanyang Technological University (NTU) kutatói olyan számítógépes programot készítettek (DIverse yet Realistic Facial Animation, DIRFA), amelyik valósághű videót készít, mutatva a beszélő arckifejezéseit, fejmozgásait. Mindehhez nincs szüksége másra, mint egy fényképre és egy hangfelvételre. Ezekből készít 3D-s videót, amelyben az arc mozgásai tökéletes összhangban vannak a hanggal, mintha tényleg beszélne a videón látható arc.

Ennek az audiovezérelt beszélő arcgenerálásként ismert koncepciónak fő kihívása, hogy olyan arcanimációkat kell létrehozni, amelyek nemcsak technikailag pontosak, hanem az emberi arckifejezések és a fejmozgások finom árnyalatait is közvetítik a beszédhanggal szinkronban. A probléma az, hogy az embereknek nagyon sokféle arcmozgásuk és érzelmük van, és rendkívül nehéz megragadni a teljes spektrumot. Most viszont úgy tűnik, hogy a szingapúri szakemberek módszere mindent megragad, beleértve a pontos ajakmozgásokat, az élénk arckifejezéseket és a természetes fejpózokat – és mindezt ugyanabból a hangbemenetből.

A kutatók 6000 ember több mint 1 millió klipjével képezte ki a DIRFA-t, a nyílt forráskódú VoxCeleb2 Dataset adatbázist használva. Ezzel meg tudták tanítani a DIRFA-t, hogy előre jelezze a beszédből származó jeleket, és ezeket a megfelelő arckifejezésekkel és fejmozdulatokkal párosítsa. Ez nagy előrelépés a korábbi módszerekhez képest, amelyek küszködtek a különböző pózokkal és az érzelmek kontrollálásával.

YouTube/NTU

A kutatók szerint a DIRFA új alkalmazásokhoz vezethet különféle iparágakban és területeken, beleértve az egészségügyet is, mivel kifinomultabb és valósághűbb virtuális asszisztenseket és chatbotokat tesz lehetővé, javítva a felhasználói élményt. Hatékony eszközként szolgálhat a beszéd- vagy arczavarral küzdő egyének számára is, segítve őket gondolataik és érzelmeik kifejező avatárokon vagy digitális ábrázolásokon keresztül történő közvetítésében, javítva kommunikációs képességüket.

Van viszont egy tagadhatatlan veszélye is az új módszernek. Fontos etikai kérdéseket is felvet, különösen a félretájékoztatás és a digitális hitelesség vonatkozásában. Az NTU csapata ezeknek az aggályoknak a megoldására olyan biztosítékok beépítését javasolja, mint a vízjelek, amelyek jelzik a videók szintetikus jellegét, azonban – jegyzi meg jogosan a ZME Science – ha az internet megtanított valamit, az az, hogy vannak módok az ilyen biztosítékok kijátszására.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.