2023. december. 10. 16:03 Tech

Nézze meg, most mire képes: 6000 ember egymillió klipjével tanították be ezt a mesterséges intelligenciát

Szinte naponta meglep minket a mesterséges intelligencia (és persze a mögötte álló fejlesztők) azzal, hogy mi mindenre képes. Szingapúri kutatók egy fénykép és egy hangfelvétel alapján beszélő, valósághű arcokat tudnak „életre kelteni”.

Mintha csak egy varázslat lenne: a szingapúri Nanyang Technological University (NTU) kutatói olyan számítógépes programot készítettek (DIverse yet Realistic Facial Animation, DIRFA), amelyik valósághű videót készít, mutatva a beszélő arckifejezéseit, fejmozgásait. Mindehhez nincs szüksége másra, mint egy fényképre és egy hangfelvételre. Ezekből készít 3D-s videót, amelyben az arc mozgásai tökéletes összhangban vannak a hanggal, mintha tényleg beszélne a videón látható arc.

Ennek az audiovezérelt beszélő arcgenerálásként ismert koncepciónak fő kihívása, hogy olyan arcanimációkat kell létrehozni, amelyek nemcsak technikailag pontosak, hanem az emberi arckifejezések és a fejmozgások finom árnyalatait is közvetítik a beszédhanggal szinkronban. A probléma az, hogy az embereknek nagyon sokféle arcmozgásuk és érzelmük van, és rendkívül nehéz megragadni a teljes spektrumot. Most viszont úgy tűnik, hogy a szingapúri szakemberek módszere mindent megragad, beleértve a pontos ajakmozgásokat, az élénk arckifejezéseket és a természetes fejpózokat – és mindezt ugyanabból a hangbemenetből.

A kutatók 6000 ember több mint 1 millió klipjével képezte ki a DIRFA-t, a nyílt forráskódú VoxCeleb2 Dataset adatbázist használva. Ezzel meg tudták tanítani a DIRFA-t, hogy előre jelezze a beszédből származó jeleket, és ezeket a megfelelő arckifejezésekkel és fejmozdulatokkal párosítsa. Ez nagy előrelépés a korábbi módszerekhez képest, amelyek küszködtek a különböző pózokkal és az érzelmek kontrollálásával.

YouTube/NTU

A kutatók szerint a DIRFA új alkalmazásokhoz vezethet különféle iparágakban és területeken, beleértve az egészségügyet is, mivel kifinomultabb és valósághűbb virtuális asszisztenseket és chatbotokat tesz lehetővé, javítva a felhasználói élményt. Hatékony eszközként szolgálhat a beszéd- vagy arczavarral küzdő egyének számára is, segítve őket gondolataik és érzelmeik kifejező avatárokon vagy digitális ábrázolásokon keresztül történő közvetítésében, javítva kommunikációs képességüket.

Van viszont egy tagadhatatlan veszélye is az új módszernek. Fontos etikai kérdéseket is felvet, különösen a félretájékoztatás és a digitális hitelesség vonatkozásában. Az NTU csapata ezeknek az aggályoknak a megoldására olyan biztosítékok beépítését javasolja, mint a vízjelek, amelyek jelzik a videók szintetikus jellegét, azonban – jegyzi meg jogosan a ZME Science – ha az internet megtanított valamit, az az, hogy vannak módok az ilyen biztosítékok kijátszására.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

A címlapról ajánljuk

Senki nem érti, miért rabolták el és ölték meg a nőt, a nyomozás fordulatai pedig még ködösebbé tették az ügyet

Fülke: "Senkinek sem érdeke egy izraeli–iráni háború"

Az izraeliek megölték a Hezbollah egyik parancsnokát

A belga miniszterelnök megvédte Orbánék letiltott jobboldali konferenciáját

Óriási a balhé Orbán és Farage brüsszeli „dzsemboriján” – a rendőrség leállíttatja a rendezvényt

Elárulták a kint dolgozó magyarok, mi az a pénz, amiért hazajönnének

A munkaerőpiaci problémák orvoslásának a külföldről hazatérő magyarok jelenthetnék az egyik fontos elemét – hacsak nem akar a kormány a vendégmunkásokra építeni.

Szentkirályinak "esze ágában sincs visszalépni", de sokszor beszél ugyanarról, ugyanúgy, mint Vitézy

Saját kérésére távozott az Országos Gyermekvédelmi Szakszolgálat vezetője

Egy hónapja még a szakszolgálat és a Belügyminisztérium is tagadta az országos igazgató távozását.

Megkapta az engedélyt, nyár elején indulhat újra az Uber Budapesten

Már idén ezernél több sofőrt szeretnének.

A hétvégi iráni támadás még nem okozott olajárrobbanást, minden Izrael válaszán múlik

A perzsa állam látványos erőfitogtatása egyelőre nem robbantott ki újabb háborút a Közel-Keleten, és az olaj, illetve az üzemanyagok árát se lőtte a sztratoszférába. De miért nem?

15 milliárd forintért árulnak egy Matolcsy Ádámhoz köthető lakást New Yorkban

A luxusingatlan 2022-ben került a jegybankelnök fiának baráti köréhez.

Szeretne azonnal értesülni a legfontosabb hírekről?

Az értesítések bekapcsolásához kattintson a "Kérem" gombra!

Köszönjük, hogy feliratkozott!

Hoppá!

Már feliratkozott!

A böngészőjében az értesítés funkció le van tiltva!

Olvasási mód:

Betűméret:

Betűstílus:

Üdvözöljük a HVG.hu-n! A lenti gombra kattintva megismerheti megújult oldalunkat!

Nézze meg, most mire képes: 6000 ember egymillió klipjével tanították be ezt a mesterséges intelligenciát

Hív a jövő – de ki veszi fel? Mit tudnak a 2024-ben átalakuló mobilok és telefonhelyettesítők?

Lecserélik az Instagram nagyon buta keresőjét, ami helyette jön, az látványos változás lesz

Elesik, de feláll, aztán belövi a gólt – egyre ügyesebbek a robotfocisták

Olyan lopásgátló törvény készül Amerikában, amit az egész világ megérezhet

Kína utasította az állami mobilszolgáltatókat: cseréljék helyi gyártásúra az amerikai chipeket a hálózatukban

Milyen mobilt vesznek most az emberek? Íme a válasz tömören