Et si on pouvait faire parler les personnages des plus belles peintures, ou bien même les photos des célébrités de ces derniers siècles ? Et bien, en 2019, c’est désormais possible ! Donner vie à des photos qui, jusqu’ici, étaient immobiles … dignes d’un film Harry Potter ? En gros, grâce à l’intelligence artificielle, ce système de technologie se calque sur une énorme base de données visuelles du modèle que l’on veut faire parler, mais se base aussi sur des visages ressemblants, et arrive à animer une image de façon hyper-réaliste. Allez, on vous explique !
Comment ça marche ? Le système performe un long meta-learning à partir d’un large choix de vidéos de la personne. Ensuite, il est capable de sélectionner certains plans en particulier, qu’il isole. Une fois ceci en stock, il pioche un faciès ressemblant dans sa base de données de « visages personnalisables » et il en ressort une version générée qui mixe cette face inconnue de base et les plans vidéos de la personne que l’on veut faire parler.
Une approche si bien pensée que cette technologie est donc capable « d’apprendre » de ces visages puis d’en créer des versions très réalistes et animées : que cela soit à partir de nouvelles personnes ou bien même de portraits en peinture !
Pour créer un modèle de visage parlant personnalisé, cela requiert de l’entraînement à partir d’un très large ensemble de données imagées d’une seule personne. Cependant, dans beaucoup de scénarios pratiques, de tels visages parlants personnalisés ont besoin d’être « appris » au préalable, à partir de plusieurs photos de la personne, et même potentiellement, une seule image ! Ici, ces scientifiques nous présentent un système avec une capacité qui justement, n’a pas besoin de beaucoup d’images de base pour faire parler le modèle. Et c’est ça qui est fou.
Plusieurs travaux récents, effectués sur le sujet, ont d’ailleurs montré à quel point ces visages humains, reproduits de manière réaliste, peuvent être obtenus en entraînant des réseaux de neurones convolutifs pour les générer.
Pour l’instant, selon l’étude, la seule limite de cette technologie, c’est qu’elle est incapable de reproduire les mimiques et autres signes distinctifs faciaux des personnes, y compris les regards vifs et dynamiques. En utilisant d’autres visages comme simples bases, lorsque cela s’applique à une célébrité, on s’aperçoit tout de suite que quelque chose ne va pas et qu’il y a une incohérence. Alors, admettons, pour créer une vidéo fake de quelqu’un qui parle, sans ces incohérences, il faudrait que le système d’adaptation soit plus travaillé et que le visage de base se rapproche le plus possible de la personne visée.
L’étude de ce système technologique a été réalisée pour le Samsung AI Center et a vu le jour au Moscow Skolkovo Institute of Science and Technology. Et pour les petits curieux parmi vous qui souhaitent en savoir plus, l’étude complète est disponible à la lecture en cliquant ici.
Bien sûr, tout de suite, on pourrait s’inquiéter des conséquences terribles d’une technologie pareille : faire dire des propos incorrects à des personnes qui ne les auraient jamais prononcés dans la vraie vie. Ce double imposteur créé de toutes pièces pourrait causer quelques problèmes futurs … Néanmoins, rassurons-nous, ce système ne fonctionne que pour le visage et ne concerne pas encore le reste du corps. Alors, qu’en pensez-vous ?