Széchenyi 2020
Budapesti Corvinus Egyetem ×
Vissza a főoldalra

Mi az a deepfake és hogyan lehet felismerni? – Interjú Mezriczky Marcell-lel

Mezriczky Marcell-lel, „A Jövő ma kezdődik” esettanulmányíró-verseny győztesével, a Corvinus Kommunikáció- és médiatudomány mesterszakos hallgatójával beszélgettünk, aki bevezetett bennünket díjnyertes tanulmányának témájába, a deepfake videómanipuláció rejtelmeibe. Ha felvétel készült róla, akkor az úgy is van? Ma már nem egészen. Ebből indult ki Mezriczky Marcell „Ál/arc – A deepfake és a digitális videómanipuláció” című esettanulmánya is, amellyel „A jövő ma kezdődik” versenyen első helyezést ért el. Körbejártuk a tanulmány eredményeit, a videómanipuláció veszélyeit és felismerését, és közben azt is megtudtuk, hogy a deepfake videók 96 százaléka a pornóiparból kerül ki.
Budapesti Corvinus Egyetem 
Miért éppen a digitális videómanipulációt és a deepfake témáját választottad? 

Nagyon szeretem a filmeket kritikai és technológiai szempontból is. Érdekel, hogyan alkotják meg a látványvilágot, a vizuális elemek szempontjából pedig a digitális manipuláció jelenti a jövőt. Elsőre ez merész kijelentésnek tűnhet, de ha belegondolunk, hogy van olyan elhunyt színész, akit digitális formában hoztak vissza a képernyőre, annyira mégsem elrugaszkodott elképzelés.

CGI: „Computer-Generated Imagery”, azaz számítógépen létrehozott kép. Számos filmben alkalmazott eljárás, amelynek során a digitális grafika eszközeivel hozzák létre a látványvilágot.

Deepfake:
a „deep learning” (mély tanulás) és a „fake” (valótlan, hamis) szavak összevonásából ered. Olyan videókat jelent, amelyeket mesterséges intelligencia segítségével manipuláltak.

Egyre nagyobb teret hódít a deepfake, egyre több ilyen videó jelenik meg az interneten. Sokan nem tudják, hogy ezeknek az arccserélős tartalmaknak egyébként közel 96 százaléka pornó. Más videókban megmutatják, hogy az adott színész hogyan nézett volna ki, ha ő kapja azt a bizonyos szerepet, például Will Smith Neoként a Mátrixban. (kép: Sham00K/Youtube; Mirror)
Elgondolkodtató kérdés, hogy szükség lesz-e a jövőben egyáltalán színészekre, vagy egyszerűen mindent megoldanak majd különböző digitális technikákkal.
Ez különösen akkor lesz érdekes, amikor a deepfake teljesen elfogadottá válik a filmiparban.


Ezt az irányt mennyire tartod jónak?

Ez jó kérdés, mert alapvetően meg lehetne úgy oldani, hogy szükség legyen a színészekre, de közben használják is a deepfake-et, ha már ennyire gyorsan fejlődő és rendkívül valósághű eredményt adó technológiáról van szó.



Ott van például Martin Scorsese legújabb filmje, Az ír. Scorsese régóta el akarta készíteni ezt a filmet, de csak most sikerült összehozni, ám időközben a színészek, Robert de Niro, Joe Pesci és Al Pacino időközben megöregedtek. Azt viszont nem akarta, hogy a szerepeket mások játsszák el, így CGI segítségével fiatalították meg őket. Néhány jelenetnél ugyan feltűnik, hogy üveges a tekintetük, vagy túl steril az arcbőrük, de vannak nagyon jól sikerült képek is. (kép: IMDb)

Egészen addig legalábbis ez volt róla a véleményem, ameddig nem láttam a YouTube-on egy videót, ahol bemutatták ugyanezt a fiatalítást deepfake-kel. A mesterséges intelligenciával elképesztően hiteles lett az eredmény, szerintem ez egy jó pont lehet a jövőben. Ha bármiféle módosítást kell végrehajtani a színészek arcán, akkor azt a mesterséges intelligenciával költséghatékonyan és sokkal valósághűbben lehet majd megtenni.

Azt viszont egyáltalán nem tartanám jónak, ha csak digitális színészeket látnánk a filmekben. Szerintem az érzelemkifejezés terén van még hova fejlődnie a mesterséges intelligencia alkotta videókban. Alapvetően jól modellezik a színészek arcát, és akár meg is tudják őket fiatalítani, de az érzelemkifejezés most még sokkal inkább videójátékszerű marad.


Miről szól az esettanulmányod?

A tanulmányban azt szerettem volna feltárni, hogy ha már ilyen elterjedtek az arccserélős tartalmak, akkor a fiatal, most iskolás korosztály milyen sikerességgel ismeri fel ezekben a manipulációt. Jelen esetben az általános iskola nyolcadik osztályát vizsgáltam, tehát 13-15 éves fiatalokat.

Budapesti Corvinus Egyetem


Veszelszki Ágnes Tanárnő segítségével, aki a témavezetőm volt, összeállítottam egy hat videóból álló tesztet, volt köztük talkshow és filmrészlet is. A hat videó között két-két CGI és deepfake videó szerepelt, volt egy könnyebben felismerhető és egy nehezebb is. A másik két videó közül az egyikben analóg, smink-maszkos módosítást alkalmaztak, a másik pedig teljesen eredeti, manipulációtól mentes felvétel volt. A teszt lényege az volt, hogy a diákok milyen arányban ismerik fel a manipulált tartalmakat, mennyire lehet őket ezekkel megtéveszteni. (Szerk: a tesztet a cikk végén ki is próbálhatod.)


Mi volt számodra a legmegdöbbentőbb eredmény a felmérés során?

Meglepő eredmény volt, hogy többnyire észrevették, hogy történt módosítás, ugyanakkor nem gondolták, hogy digitális módosításról lenne szó. Felismerték tehát, hogy valami „más”, de azt hitték, hogy az a sminkesek munkájának köszönhető. Ebből azt a következtetést lehet levonni, hogy ha nem tudják megkülönböztetni az alapvető módosítási technikákat, akkor azt is nehezebb megítélni, hogy az adott tartalom mennyire hiteles, mennyire vehető komolyan.


A deepfake árnyoldala, hogy a manipulált felvétel emberek lejáratására is alkalmas. Hogyan lehet észrevenni, hogy deepfake-ről van szó?

 

A deepfake ebből a szempontból valóban veszélyes, hiszen ma már könnyedén megoldható, hogy például a pornószínészek testére más arcát helyezzék rá, amivel bárkit le lehet járatni, de a technológia politikai fegyverként is bevethető. Arra is volt példa, hogy mesterséges intelligencia által generált hanggal csaltak ki pénzt egy vállalattól. Egy idegen nyelvet beszélő vezérigazgató felhívta az egyik beosztottat, hogy egy bizonyos összeget át kell utalni ide és ide, az adminisztrátor pedig ezt el is végezte. Miután átment a pénz, ismét telefonáltak neki, hogy ezt újra meg kellene tenni, itt lett csak gyanús számára az eredeti telefonhívás. (Kép: Bloomberg; az első kép eredeti, a második deepfake felvétel)

Ami egy videóban elárulhatja a deepfake-et, az az üveges tekintet. Jó példa erre az a híres Obama-videó, amelyben bemutatják, hogyan lehet ezt a technológiát politikai visszaélésekre használni. Nem lehet eldönteni, hogy hova néz, nem mozog a szeme, miközben beszél. Sok esetben egyáltalán nem vagy furcsán pislog, ami – ha odafigyelünk az ilyen jelekre – nagyon feltűnő tud lenni.


Árulkodó lehet az is, ha nincs szinkronban a hang és beszéd. Látszik, hogy beszél, mozog a szája, de a hangban kisebb csúszások vannak. Jellemző a steril hatású arc, ami túl tökéletesnek, túl hibátlannak tűnik. Obama arca a videóban például nagyon fénylik, olyan mintha retusálva lenne.


Látsz arra lehetőséget, hogy a jövőben könnyen ki lehessen szűrni a manipulált felvételeket, akár valamilyen program segítségével?

 

Folyamatosan dolgoznak a deepfake technológiai ellenszerén. A Google például mesterséges intelligenciát vet be tulajdonképpen saját maga ellen, hogy így ismerjék fel a deepfake-et. Ugyanakkor eszméletlenül gyorsan fejlődik ez a terület, amivel nagyon nehéz lépést tartani. Mesterséges intelligenciát használó algoritmusokkal gyakorlatilag bárki kísérletezhet, ha megvan hozzá a megfelelő hardverű számítógépe. A Githubra például fel lehet tölteni egy félig megírt programot, amin bárki más is dolgozhat és fejlesztheti azt. Mivel a deepfake mindig egy lépéssel előrébb jár, nincs biztos technológiai ellenszer. (kép: Canva.com)

Vannak más kezdeményezések is:
a Facebook például tudatossági kampányt indított, hogy edukálja a felhasználókat a deepfake kiszűrésére. Egyelőre ez a maximum, amit tehetünk. Tisztában kell lennünk a jelenség veszélyeivel és gyengéivel is, bár az utóbbiak napról napra fejlődnek.

Manapság már szinte megtévesztően hiteles felvételek készülnek, így csak arra hagyatkozhatunk, hogy mi magunk tudatosan álljunk a médiához. Ez nemcsak a deepfake-re, hanem a hagyományos álhírekre is igaz. A forráskritikus szemlélet jó lehetőség arra, hogy ne dőljünk be a megtévesztő tartalmaknak.

A jövő ma kezdődik esettanulmány-író verseny az Európai Unió, Magyarország és az Európai Szociális Alap társfinanszírozása által biztosított forrás az EFOP-3.6.3-VEKOP-16-2017-00007 azonosítószámú „Tehetségből fiatal kutató - A kutatói életpályát támogató tevékenységek a felsőoktatásban” című projekt keretében valósult meg.

Mennyire nehéz felismeri a manipulált felvételeket? Az alábbi tesztet Mezriczky Marcell készítette a tanulmányához. A hat videó közül az alábbiakat kell felismerni: természetes felvétel, smink-maszkos technika, felismerhető CGI, felismerhető deepfake, élethű CGI, élethű deepfake. 
(Megoldás a videók után.)


Megoldás:

1. Bill Hader - észrevehető deepfake

2. Alita - észrevehető CGI

3. Alelnök - smink-maszk

4. Tron: Örökség - élethű CGI

5. Obama - élethű deepfake

6. Tom Hiddleston - természetes
Vágólapra másolva