Deepfake

9 marca 2020

(generowane komputerowo treści wideo)– technika syntezy ludzkiego obrazu oparta na sztucznej inteligencji. Służy do łączenia i nakładania istniejących materiałów wizualnych na wyjściowe media źródłowe. Efektem są nowo utworzone lub zmodyfikowane odwzorowania twarzy i ultrarealistyczne fałszywe wideo, w których ludzie mówią i robią rzeczy, których nie wypowiedzieli i nie dokonali w rzeczywistości. Choć oprogramowanie do edycji zdjęć, takie jak Photoshop, było od dawna używane do fałszowania obrazów, do niedawna jednak trudno było zmienić treści wideo w znaczący sposób. W związku z tym często były one uważane za dowód, że coś się wydarzyło.

Termin „deepfake” pochodzi od użytkownika o nazwie „DeepFakes” który w grudniu 2017 r. opublikował na portalu Reddit kilka internetowych filmów porno. Do ich stworzenia wykorzystał oprogramowanie do edycji twarzy. Filmy typu „deepfake” są tworzone przez załadowanie złożonego zestawu instrukcji do komputera wraz z dużą liczbą zdjęć i nagrań dźwiękowych. Następnie program komputerowy uczy się naśladować i odtwarzać mimikę danej osoby, jej głos, ruchy, indywidualne maniery, intonację oraz rodzaj używanego słownictwa. Wystarczająca liczba materiałów wejściowych umożliwia systemowi stworzenie nagrania z udziałem danej osoby. Oszuści tworzący tego typu materiały często wykorzystują autentyczne nagrania i łączą je ze sztucznie wygenerowanym obrazem.

Nowa technologia pozwala każdemu stworzyć materiał wideo, w którym pojawiają się znane postaci, np. prezydent USA Do. Trump czy wysocy rangą dyplomaci wypowiadający się na kontrowersyjne tematy w sposób podburzający opinię publiczną. Deepfake’i zostały wykorzystane do fałszywego przedstawienia znanych polityków na portalach wideo lub w czatach. Na przykład twarz argentyńskiego prezydenta M. Macriego została zastąpiona twarzą A. Hitlera, a twarz A. Merkel – twarzą Trumpa. W lipcu 2017 r. świat obiegł filmik, w którym tego ostatnieog obrażał B. Obama. Okazało się, że byłego prezydenta USA wygenerowano w całości w aplikacji FakeApp, a głosu użyczył mu komik J. Peele. Akcja miała na celu zwrócenie uwagi na problem fake newsów. W kwietniu 2018 r. Peele i J. Peretti stworzyli podróbkę, w której używali wizerunku Obamy do zwrócenia uwagę na zagrożenia związane z tego typu materiałami.

W ostatnich latach technologia przetwarzania obrazu (aparaty cyfrowe, telefony komórkowe itp.) stała się wszechobecna, umożliwiając ludziom na całym świecie natychmiastowe wykonywanie zdjęć i wideo. Przyczyną wzrostu liczby obrazów cyfrowych jest zdolność nawet stosunkowo niewykwalifikowanych użytkowników do manipulowania i zniekształcania przekazu mediów wizualnych. Podczas gdy wiele manipulacji jest wykonywanych dla zabawy lub dla wartości artystycznej, inne służą celom przeciwstawnym, takim jak propaganda lub kampanie dezinformacyjne. Ta manipulacja multimediami wizualnymi jest możliwa dzięki szerokiej dostępności zaawansowanych aplikacji do edycji obrazu i wideo, a także zautomatyzowanych algorytmów, które umożliwiają edycję w sposób bardzo trudny do wykrycia za pomocą narzędzi do analizy wizualnej mediów. Słowo „deepfake” stało się określeniem algorytmów uczenia maszynowego i technologii mapowania twarzy do cyfrowej manipulacji głosami, ciałami i twarzami ludzi. Technologia ta rozwija się w tak szybkim tempie, że coraz trudniej jest powiedzieć, co jest fałszywe. Z czasem, bez odpowiedniego sprzętu, deepfake’i staną się nieodróżnialne od prawdziwych zdjęć czy filmów. Mogą one być wykorzystywane również do tworzenia fałszywych wiadomości i złośliwych oszustw. Tym, co odróżnia je od innych technik manipulacji wideo, jest możliwość uzyskania fotorealistycznych rezultatów; przy wystarczającej liczbie obrazów obu aktorów i wystarczającej ilością czasu na szkolenie komputerowe wynik może być niezwykle przekonujący. Filmy typu deepfake można wykryć w wypadku braku sygnałów fizjologicznych właściwych człowiekowi: oddychania, klaskania oczu, pulsu.

Liderzy państw demokratycznych doceniają obecnie wagę problemu, jaki niesie za sobą możliwość tworzenia treści, w których generowane komputerowo obrazy znanych postaci życia publicznego wypowiadają bulwersujące twierdzenia i są nie do odróżnienia od prawdziwych osób. Materiały wideo tego rodzaju są potencjalnym zagrożeniem dla bezpieczeństwa wewnętrznego każdego państwa, a także mogą stać się narzędziem wpływu na wybory. Kolejny sfabrykowany wideoskandal może zagrozić bezpieczeństwu narodowemu lub wpłynąć na opinię publiczną. To pole do działania dla oszustów chcących ingerować np. w nastroje polityczne w społeczeństwie, a także nowa broń w wojnie informacyjnej. Technologia ta będzie narzędziem wykorzystywanym przez państwa celem manipulowania opinią publiczną i przeprowadzania kampanii dezinformujących, a także podkopywania wiary w obecnie istniejące instytucje. Wraz z zaawansowanymi metodami śledzenia twarzy i wideomanipulacji nadchodzi nowa era dezinformacji.

Masowa dostępność oprogramowania deepfake ma wiele niepokojących implikacji. Dzięki tej technologii coraz trudniejsze będzie odfiltrowywanie prawdy z kłamstw. Jest ona już szeroko stosowana w fałszywych filmach pornograficznych i komediowych, ale w związku z szybkim postępem technologii za jakiś czas pojawią się poważniejsze konsekwencje. Deepfake’i można również wykorzystywać przy próbach szantażu, linkach phishingowych i oszustwach wymuszających. Dostarczają one przestępcom narzędzia do tworzenia (przy minimalnym nakładzie pracy) realistycznych, trudnych do wykrycia (przynajmniej bez głębokiej analizy sądowej) nagrań wideo, które mogą podszywać się pod kogoś i oszukiwać każdego, w tym egzekwowanie prawa. Mogłyby one zostać wykorzystane do wymuszeń, wplątywania niewinnych ludzi w zbrodnie, a w postępowaniu cywilnym – do przeprowadzania wszelkiego rodzaju oszukańczych roszczeń.

Narzędzie to ma jednak znacznie większe możliwości, które właśnie wykorzystują Chińczycy. W listopadzie 2018 r. chińska państwowa telewizja agencji informacyjnej Xinhua stworzyła wygenerowanego komputerowo prezentera, który zaprezentuje wieczorne wiadomości (jego sylwetka wzorowana była na pracowniku agencji, Z. Zhao). Xinhua planuje produkcję programów prowadzonych na okrągło przez komputerowych prezenterów, w których widz będzie mógł usłyszeć wiadomości w dowolnym języku. Treści, które przedstawić ma cyfrowy prezenter, wprowadzane są do pamięci deepfake, a ruch jego warg synchronizowany jest ze słowami wypowiadanymi przez syntezator mowy.

W USA aktywnie rozwija się technologię wykrywania deepfake’ów. Na przykład Agencja Zaawansowanych Projektów Badawczych w Obszarze Obronności (US Defense Advanced Research Projects Agency, DARPA) rozpoczęła w 2016 r. projekt MediFor (Media Forensics), którego celem jest opracowanie technologii do automatycznej oceny integralności zdjęć lub filmów i uczynienie jej elementem platformy wymiany materiałów sądowych pomiędzy użytkownikami końcowymi. Jeśli plan się powiedzie, platforma MediFor będzie automatycznie wykrywać manipulacje oraz podawać szczegółowe informacje o procesie ich powstania.

Kolejną amerykańską firmą, która walczy z wideomanipulacjami, jest założona w 2017 r. AI Foundation. Opracowuje ona oprogramowanie do weryfikacji autentyczności mediów. Pierwszy, wydany niedawno produkt firmy o nazwie „Reality Defender” łączy w sobie moderację człowieka i uczenie maszynowe. Umożliwia on identyfikację złośliwej zawartości mającej na celu do oszukiwanie ludzi, takiej jak deepfake’i. Naukowcy zapraszają użytkowników do wysyłania im fałszywych materiałów w celu tworzenia spersonalizowanej sztucznej inteligencji, z której będą mogli korzystać wszyscy ludzie. W tym celu Fundacja AI stworzyła własną Globalną Radę ds. Sztucznej Inteligencji, która stara się przewidywać i przeciwdziałać negatywnym skutkom sztucznej inteligencji.

Olga Wasiuta

J. Booth, A. Roussos, A. Ponniah et al., Large Scale 3D Morphable Models, „International Journal of Computer Vision” 2018, vol. 126, no. 2–4; A. Dodge, L. House, E. Johnstone, Using Fake Video Technology To Perpetrate Intimate Partner Abuse Domestic Violence Advisory Ridder, Costa & Johnstone LLP1 [b.r.]; W. Gogołek, Komunikacja sieciowa. Uwarunkowania, kategorie i paradoksy, Oficyna Wydawnicza ASPRA-JR, Warszawa 2010; R. Heartfield, G. Loukas, Protection Against Semantic Social Engineering Attacks, Versatile Cybersecurity. Advances In Information Security, M. Conti et al. (eds), Springer 2018; H. Kim, P.Garrido, A. Tewari et al., Deep Video Portraits, „ACM Transactions on Graphics” 2018, vol. 37, no. 4; D. Rivera, A. García et al., Secure Communications and Protected Data for a Internet of Things Smart Toy Platform, „IEEE Internet of Things Journal” 2019, vol. 6, no. 2; S. Suwajanakorn, S.M. Seitz, I. Kemelmacher-Shlizerman, Synthesizing Obama: Learning Lip Sync from Audio, „ACM Transactions on Graphics” 2017, vol. 36, no. 4; A. Tewari, M. Zollhöfer, H. Kim et al., MoFA: Model-based Deep Convolutional Face Autoencoder for Unsupervised Monocular Reconstruction, refereat wygłoszony na konferencji International Conference on Computer Vision (ICCVW), 2017; J. Thies, M. Zollhöfer, M. Stamminger, C. Theobalt, M.s Nießner. FaceVR: Real-Time Facial Reenactment and Eye Gaze Control in Virtual Reality, „ACM Transactions on Graphics” 2018, vol. 37, no. 2; Y. Zhu, R. Bridson, D.M. Kaufman, Blended Cured Quasi-Newton for Distortion Optimization,„ACM Transactions on Graphics” 2018, vol. 37, no. 4.

Spis treści