Que sont les deepfakes? Une IA qui trompe

Les deepfakes sont des médias - souvent vidéo mais parfois audio - qui ont été créés, modifiés ou synthétisés à l'aide d'un apprentissage en profondeur pour tenter de tromper certains téléspectateurs ou auditeurs en leur faisant croire à un faux événement ou à un faux message.

L'exemple original d'un deepfake (par l'utilisateur de reddit / u / deepfake) a échangé le visage d'une actrice sur le corps d'un artiste porno dans une vidéo - ce qui était, bien sûr, complètement contraire à l'éthique, bien que pas initialement illégal. D'autres deepfakes ont changé ce que les gens célèbres disaient ou la langue qu'ils parlaient.

Deepfakes étend l'idée de la composition vidéo (ou film), ce qui existe depuis des décennies. Des compétences, du temps et de l'équipement vidéo importants sont consacrés à la composition vidéo; Les deepfakes vidéo nécessitent beaucoup moins de compétences, de temps (en supposant que vous ayez des GPU) et d'équipement, bien qu'ils ne soient souvent pas convaincants pour les observateurs attentifs.

Comment créer des deepfakes

À l'origine, les deepfakes reposaient sur des auto-encodeurs, un type de réseau neuronal non supervisé, et beaucoup le font encore. Certaines personnes ont affiné cette technique en utilisant des GAN (réseaux antagonistes génératifs). D'autres méthodes d'apprentissage automatique ont également été utilisées pour les deepfakes, parfois en combinaison avec des méthodes non d'apprentissage automatique, avec des résultats variables.

Auto-encodeurs

Essentiellement, les auto-encodeurs pour les visages deepfake dans les images exécutent un processus en deux étapes. La première étape consiste à utiliser un réseau de neurones pour extraire un visage d'une image source et l'encoder dans un ensemble de caractéristiques et éventuellement un masque, généralement en utilisant plusieurs couches de convolution 2D, quelques couches denses et une couche softmax. La deuxième étape consiste à utiliser un autre réseau neuronal pour décoder les caractéristiques, mettre à l'échelle le visage généré, faire pivoter et redimensionner le visage selon les besoins, et appliquer le visage mis à l'échelle à une autre image.

La formation d'un auto-encodeur pour la génération de visages deepfake nécessite de nombreuses images des faces source et cible à partir de plusieurs points de vue et dans des conditions d'éclairage variées. Sans GPU, la formation peut prendre des semaines. Avec les GPU, cela va beaucoup plus vite.

GAN

Les réseaux antagonistes génératifs peuvent affiner les résultats des auto-encodeurs, par exemple, en opposant deux réseaux de neurones l'un à l'autre. Le réseau génératif essaie de créer des exemples qui ont les mêmes statistiques que l'original, tandis que le réseau discriminatif essaie de détecter les écarts par rapport à la distribution de données d'origine.

La formation des GAN est une technique itérative chronophage qui augmente considérablement le coût en temps de calcul par rapport aux auto-encodeurs. Actuellement, les GAN sont plus appropriés pour générer des images réalistes uniques de personnes imaginaires (par exemple, StyleGAN) que pour créer des vidéos deepfake. Cela pourrait changer à mesure que le matériel d'apprentissage en profondeur deviendrait plus rapide.

Comment détecter les deepfakes

Au début de 2020, un consortium d'AWS, Facebook, Microsoft, le comité directeur du partenariat sur l'intégrité des médias de l'IA et des universitaires ont créé le Deepfake Detection Challenge (DFDC), qui s'est déroulé sur Kaggle pendant quatre mois.

Le concours comprenait deux solutions prototypes bien documentées: une introduction et un kit de démarrage. La solution gagnante, par Selim Seferbekov, a également une assez bonne rédaction.

Les détails des solutions vous feront croiser les yeux si vous n'êtes pas dans les réseaux de neurones profonds et le traitement d'images. Essentiellement, la solution gagnante a fait une détection de visage image par image et extrait des masques d'index SSIM (Structural Similarity). Le logiciel a extrait les visages détectés plus une marge de 30 pour cent et utilisé EfficientNet B7 pré-entraîné sur ImageNet pour l'encodage (classification). La solution est désormais open source.

Malheureusement, même la solution gagnante ne pouvait capturer qu'environ les deux tiers des deepfakes dans la base de données de test DFDC.

Applications de création et de détection Deepfake

L'une des meilleures applications de création de deepfake vidéo open source est actuellement Faceswap, qui s'appuie sur l'algorithme original de deepfake. Il a fallu deux semaines à l'écrivain Ars Technica Tim Lee, en utilisant Faceswap, pour créer un deepfake qui a troqué le visage du Lieutenant Commander Data (Brent Spiner) de  Star Trek: The Next Generation en une vidéo de Mark Zuckerberg témoignant devant le Congrès. Comme c'est typique pour les deepfakes, le résultat ne passe pas le test de reniflement pour quiconque possède une sophistication graphique significative. Ainsi, l'état de l'art pour les deepfakes n'est toujours pas très bon, à de rares exceptions près qui dépendent plus de la compétence de «l'artiste» que de la technologie.

C'est quelque peu réconfortant, étant donné que la solution de détection DFDC gagnante n'est pas non plus très bonne. Pendant ce temps, Microsoft a annoncé, mais n'a pas publié à ce jour, Microsoft Video Authenticator. Microsoft affirme que Video Authenticator peut analyser une photo ou une vidéo fixe pour fournir un pourcentage de chance, ou un score de confiance, que le média soit manipulé artificiellement.

Video Authenticator a été testé par rapport à l'ensemble de données DFDC; Microsoft n'a pas encore signalé à quel point il est meilleur que la solution Kaggle gagnante de Seferbekov. Il serait typique pour un sponsor de concours d'IA de s'appuyer sur et d'améliorer les solutions gagnantes du concours.

Facebook promet également un détecteur de deepfake, mais prévoit de garder le code source fermé. Un problème avec les détecteurs de deepfake open source tels que Seferbekov est que les développeurs de la génération deepfake peuvent utiliser le détecteur comme discriminateur dans un GAN pour garantir que le faux passera ce détecteur, alimentant finalement une course aux armements de l'IA entre les générateurs deepfake et les détecteurs deepfake.

Sur le plan audio, Descript Overdub et la VoCo démontrée mais encore inédite d'Adobe peuvent rendre la synthèse vocale presque réaliste. Vous entraînez Overdub pendant environ 10 minutes pour créer une version synthétique de votre propre voix; une fois formé, vous pouvez modifier vos voix off sous forme de texte.

Une technologie connexe est Google WaveNet. Les voix synthétisées par WaveNet sont plus réalistes que les voix de synthèse vocale standard, bien que pas tout à fait au niveau des voix naturelles, selon les propres tests de Google. Vous avez entendu des voix WaveNet si vous avez récemment utilisé la sortie vocale de l'Assistant Google, de la recherche Google ou de Google Traduction.

Deepfakes et pornographie non consensuelle

Comme je l'ai mentionné plus tôt, le deepfake original a troqué le visage d'une actrice sur le corps d'un artiste porno dans une vidéo. Reddit a depuis interdit le sous-Reddit / r / deepfake qui hébergeait cela et d'autres deepfakes pornographiques, car la plupart du contenu était de la pornographie non consensuelle, qui est maintenant illégale, du moins dans certaines juridictions.

Un autre sous-Reddit pour les deepfakes non pornographiques existe toujours dans / r / SFWdeepfakes. Alors que les habitants de ce sous-Reddit prétendent faire du bon travail, vous devrez juger par vous-même si, par exemple, voir le visage de Joe Biden truqué dans le corps de Rod Serling a une valeur - et si l'un des deepfakes y passe. le test de sniff pour la crédibilité. À mon avis, certains sont près de se vendre comme réels; la plupart peuvent être qualifiées de brut.

Bannir / r / deepfake n'élimine pas, bien sûr, la pornographie non consensuelle, qui peut avoir plusieurs motivations, y compris la pornographie de vengeance, qui est elle-même un crime aux États-Unis. Parmi les autres sites qui ont interdit les deepfakes non consensuels, citons Gfycat, Twitter, Discord, Google et Pornhub, et enfin (après beaucoup de temps) Facebook et Instagram.

En Californie, les individus ciblés par du contenu deepfake sexuellement explicite réalisé sans leur consentement ont une cause d'action contre le créateur du contenu. En Californie également, la distribution de supports audio ou visuels malveillants ciblant un candidat à une fonction publique dans les 60 jours suivant son élection est interdite. La Chine exige que les deepfakes soient clairement étiquetés comme tels.

Deepfakes en politique

De nombreuses autres juridictions n'ont pas de lois contre les deepfakes politiques. Cela peut être troublant, en particulier lorsque des personnalités politiques de grande qualité parviennent à une large diffusion. Un deepfake de Nancy Pelosi serait-il pire que la vidéo au ralenti conventionnelle de Pelosi manipulée pour donner l'impression qu'elle brouillait ses mots? Cela pourrait être, si bien produit. Par exemple, regardez cette vidéo de CNN, qui se concentre sur les deepfakes pertinents pour la campagne présidentielle de 2020.

Deepfakes comme excuses

«C'est un deepfake» est également une excuse possible pour les politiciens dont des vidéos réelles et embarrassantes ont fui. Cela s'est produit récemment (ou aurait eu lieu) en Malaisie lorsqu'une sex tape gay a été qualifiée de deepfake par le ministre des Affaires économiques, même si l'autre homme montré dans la cassette jurait que c'était réel.

D'un autre côté, la distribution d'un probable deepfake amateur du président malheureux Ali Bongo du Gabon a contribué à un coup d'État militaire ultérieur contre Bongo. La vidéo deepfake a averti l'armée que quelque chose n'allait pas, encore plus que l'absence prolongée de Bongo des médias.

Plus d'exemples de deepfake

Une vidéo deepfake récente d' All Star , le classique de Smash Mouth de 1999, est un exemple de manipulation d'une vidéo (dans ce cas, un mashup de films populaires) en une fausse synchronisation labiale. Le créateur, l'utilisateur de YouTube ontyj, note qu'il «s'est laissé emporter par le test de wav2lip et maintenant cela existe ...» C'est amusant, mais pas convaincant. Néanmoins, cela démontre à quel point le faux mouvement des lèvres a été amélioré. Il y a quelques années, le mouvement artificiel des lèvres était généralement le cadeau d'une fausse vidéo.

Ça pourrait être pire. Jetez un œil à cette vidéo deepfake du président Obama en tant que cible et de Jordan Peele en tant que conducteur. Imaginez maintenant qu'il n'incluait aucun contexte le révélant comme un faux, et incluait un appel à l'action incendiaire.

Êtes-vous encore terrifié?

En savoir plus sur l'apprentissage automatique et l'apprentissage profond:

  • Deep Learning vs Machine Learning: comprendre les différences
  • Qu'est-ce que l'apprentissage automatique? Intelligence dérivée des données
  • Qu'est-ce que le Deep Learning? Algorithmes qui imitent le cerveau humain
  • Explication des algorithmes d'apprentissage automatique
  • Le machine learning automatisé ou AutoML expliqué
  • L'apprentissage supervisé expliqué
  • Apprentissage semi-supervisé expliqué
  • L'apprentissage non supervisé expliqué
  • L'apprentissage par renforcement expliqué
  • Qu'est-ce que la vision par ordinateur? AI pour les images et la vidéo
  • Qu'est-ce que la reconnaissance faciale? AI pour Big Brother
  • Qu'est-ce que le traitement du langage naturel? AI pour la parole et le texte
  • Kaggle: là où les data scientists apprennent et s'affrontent
  • Qu'est-ce que CUDA? Traitement parallèle pour les GPU