Cet article est également disponible en: English
Le deep learning est désormais LA grande tendance à suivre dans le secteur des effets visuels, avec des usages surprenants : nous en avons récemment parlé sur 3DVF avec un spot mettant en scène Bruce Willis, via un générateur d’animations de danse ou encore du côté de NVIDIA. Des projets d’autant plus prometteurs que l’application de l’IA aux effets visuels n’en est qu’à ses débuts.
En France, Mac Guff a su voir le potentiel immense de ces technologies et s’est pleinement lancé dans ce nouvel eldorado. A la clé, un gain de temps et de réalisme phénoménaux.
La preuve : pour l’émission Hôtel du temps, qui sera bientôt présentée sur France 3 et mettra en scène Thierry Ardisson interviewant des célébrités décédées, Mac Guff n’a mis que 3 mois pour truquer 50 minutes de contenu.
En voici la bande-annonce, qui vous permettra de juger du résultat :
Hôtel du Temps
Le concept de l’émission Hôtel du Temps pose plusieurs défis de taille : le grand public a déjà une image précise de ces personnalités en tête, et le format interview implique un cadrage serré.
Rodolphe Chabrier, président de Mac Guff, nous a indiqué que les équipes du studio n’avaient pas pour mission d’embellir les personnalités, même si ce serait techniquement possible : l’idée était donc réellement de proposer un résultat proche des visages réels, et non une version idéalisée.
Une autre question consistait à définir l’âge cible pour chaque personnalité : souhaite-t-on interviewer un Jean Gabin dans sa jeunesse, ou plus tardivement ? Cette problématique est évidemment définie en amont du tournage, puisque comme seul le visage est remplacé, le comédien doit adapter son jeu et avoir une coiffure adaptée (l’outil Face Engine de Mac Guff ne gère pas encore les cheveux).
Une fois ces paramètres définis, le plus difficile reste à faire : trouver les bonnes données qui permettront de rendre vie aux personnalités.
En effet, le deep learning implique de disposer de données d’entrée qui vont servir à « entraîner » l’outil afin qu’il génère correctement les images du visage de chaque célébrité.
Problème, les images d’archives de l’ère pré-HD et pré-numérique, d’une définition réduite, avec du grain et donc d’une qualité toute relative, ne constituent pas la source idéale. D’où la notion de « Face Retriever » mise en avant par Thierry Ardisson lors des interviews autour de son émission : l’idée est de souligner qu’il a fallu « récupérer » les visages en travaillant en profondeur sur le choix des images sources et leur amélioration. Sur ce dernier point, Mac Guff préfère ne pas trop s’étendre, le studio souhaitant évidemment préserver ses méthodes afin de garder un temps d’avance.
Rodolphe Chabrier a néanmoins pu nous donner quelques informations générales. Il souligne qu’il peut arriver qu’une personnalité « ne se ressemble pas » sur certaines archives. Un éclairage atypique, une posture ou expression inhabituelles pour une personne peuvent changer ponctuellement son apparence, auquel cas il faudra éviter d’utiliser les images associées.
Par ailleurs, un des problèmes classiques en deep learning est le côté « boîte noire » des outils, qui empêche d’avoir un contrôle artistique.
Cet obstacle a ici été surmonté grâce à une approche mixte et pas uniquement des outils de deep learning en boîte noire (là encore, Rodolphe Chabrier n’a pas pu nous donner trop de détails). Les artistes du studio ont donc le contrôle sur les images : il est donc possible de faire des retakes, d’ajuster certains détails. Une expression faciale inadaptée, un regard mal positionné peuvent être modifiés.
« Industrialiser la bidouille »
Mac Guff a donc su mettre sur pied des outils expérimentaux, puis en faire un nouveau pipeline utilisable en production. Une démarche que Rodolphe Chabrier résume ainsi : « industrialiser la bidouille ».
Cette démarche du studio était déjà engagée depuis un certain temps (comme en témoigne le travail fait sur la série Le Bureau des légendes), mais elle a paradoxalement été accélérée par la pandémie : lors du début de la crise, l’effondrement du nombre de projets a libéré du temps. Rodolphe Chabrier et Martial Vallanchon (superviseur VFX au sein du studio) ont alors pu passer 3 à 4 mois à se focaliser sur le deep learning, à faire des tests qui ont aussi permis de convaincre l’ensemble de la direction du studio de la viabilité de cette technique. Mac Guff a ensuite mis en place une démarche pragmatique, avançant pas à pas, explorant peu à peu.
Le résultat de ce travail fastidieux est donc la création de 50 minutes de plans truqués en l’espace de 3 mois. Une rapidité impressionnante qui change radicalement la manière d’aborder un projet, la phase la plus lente étant le choix des données et l’entraînement de l’outil, tandis que la génération des images se fait très rapidement (mais pas encore en temps réel, malgré la puissance des GPUs actuels).
Le passage au deep learning n’est donc pas un simple changement d’outil, mais une véritable révolution qui impacte la fabrication comme la production. Comme le résume Rodolphe Chabrier : « les flux changent, les coûts changent, la crédibilité visuelle change ».
En revanche, explique-t-il, comme les autres innovations passées (y compris l’invention des VFX), l’IA n’a pas vocation à tuer des emplois, mais bien à en créer, à élargir les possibilités narratives en rendant possible ce qui ne l’était pas.
Un atout concurrentiel
Une telle technologie peut évidemment constituer un atout pour les studios qui sauront prendre le train avant les autres. Même si Mac Guff est avant tout un studio généraliste (là où d’autres se spécialisent dans certains types d’effets, comme les créatures ou les simulations), ce travail sur les visages pourrait attirer des clients spécifiquement intéressés par cette compétence, en France comme à l’étranger.
Et demain ?
Le studio ne compte évidemment pas en rester là, et l’objectif est d’étendre l’IA à de nouveaux domaines.
Les cheveux, d’abord, puisque comme indiqué plus haut seuls les visages ont été traités pour Hôtel du Temps (les cheveux sont donc ceux des acteurs, ou des perruques).
L’idée serait également de travailler sur les corps complets avec un « Body Engine », et même d’appliquer l’IA à d’autres champs techniques. Bref, de continuer l’approche pragmatique déroulée jusqu’ici.
Outre les humains, la rotoscopie est un autre bon candidat au deep learning. Ici, l’IA pourrait permettre de diminuer les coûts, d’automatiser le travail mais aussi de relocaliser une tâche souvent confiée à des studios asiatiques.
Reste à concrétiser cet avenir. Si Mac Guff dispose déjà d’un début de département dédié à l’IA et au deep learning, avec des ingénieurs issus de l’X ou des Ponts et Chaussées, le but est à terme mettre en place une équipe de 4 ou 5 personnes focalisées à 100% sur le sujet.
Ceci représentera un investissement conséquent, puisque les profils nécessaires sont issus d’écoles d’ingénieur et que les entreprises de tous secteurs s’arrachent actuellement les spécialistes de l’IA.
Le CNC sera un soutien précieux : Mac Guff vient de remporter un appel à projets « Choc de Modernisation » avec à la clé une aide financière. Si la somme accordée n’est pas aussi élevée que ce qu’aurait souhaité le studio, elle constitue tout de même un accélérateur précieux, et Rodolphe Chabrier nous a clairement indiqué à quel point Mac Guff peut remercier le CNC : sans ce support, les fonds propres du studio n’auraient pas suffi pour lancer le futur département IA.
Le secret de la longévité ?
Visages rajeunis, maquillés, remplacés, et demain coiffures, corps, animation, décors… Mac Guff ouvre un nouveau chapitre de son histoire.
Une trentaine d’années après ses travaux pionniers en morphing – pour rappel, ILM n’a devancé l’équipe française que de quelques mois -, Mac Guff continue d’appliquer la recette qui a fait son succès : l’innovation.
L’émission Hôtel du Temps sera prochainement diffusée sur France 3.
En bonus de cet article, voici (en exclusivité !) une série de visuels qui nous été transmis par Mac Guff. Pour chaque paire d’images, celle de gauche est la version d’origine sans retouche, celle de droite la version en sortie du Face Engine de Mac Guff, mais avant le finishing (et donc sans l’étalonnage final).
Vous pouvez cliquer sur les images pour les ouvrir en pleine résolution.
11 commentaires
Jean Gabin est impressionant, Ardisson jeune pas mal, Lady di et Mitterrand ça pique. Mais du coup les voix viennent d’ou?
Ardisson ou l’éternelle jeunesse! 🙂
Bonne question [USER=37468]@phicata[/USER] ! Dans la bande-annonce il s’agit d’imitateurs, mais il y a du travail mené autour de ces sujets en IA : Rodolphe Chabrier m’a justement expliqué que même s’ils sont dans l’image, ils explorent ce sujet.
C’est d’ailleurs assez pertinent : on peut imaginer qu’ils pourraient du coup ensuite vendre un « package complet » image+voix pour faire revivre une personnalité.
Aux dernières nouvelles l’émission devrait être diffusée à partir de début 2022 ( [URL]https://www.leparisien.fr/culture-loisirs/tv/thierry-ardisson-jai-suffisamment-montre-ma-gueule-mais-je-souffrirais-de-ne-plus-faire-de-tele-23-08-2021-DCQTOJZJCFHSLPNUVFG7YXTKI4.php[/URL] ). On devrait aussi avoir droit à Coluche et Dalida.
Rien a redire, excellente idee et tres bons deeps. Un peu surjoue le gabin, mais bon. Ce qui m interpelle, c est plutot le caractere ethique du truc. Faire parler des morts, a ce point realistes, faut oser. Mais Ardisson, ce genie du PAF, l ethique il n en a jamais rien eu a faire.
Un point à noter sur la partie éthique: au-delà de la question de redonner vie à des personnes disparues, pour le contenu des interviews l’émission s’appuie sur des archives, l’idée étant d’éviter de risquer de leur faire dire ce qu’ils n’auraient jamais dit (Mitterrand qui donne son avis sur la campagne 2022, par exemple).
Sympa pour les familles et proches qui se retrouve face à ca aussi … Et comme tu dis shadows, oui, là ca se base sur des archives, mais est ce que ca sera toujours le cas … ? Dans un temps ou la désinformation est devenu un vrai problème de société, ca fait réfléchir !
On peux saluer la prouesse technique en tout cas.
Tout à fait, ça pose de vraies questions, tout comme les cas précédents (célébrités recréées pour de la publicité, ce qui se fait depuis les années 90).
Le risque potentiel étant aussi qu’une image créée pour un contexte où il est clair qu’il s’agit d’une reconstitution, comme ici, soit présentée ailleurs comme une vraie archive : on a déjà eu le coup avec un docu-fiction sur la Lune présenté comme une vraie preuve que les américains n’y sont pas allés, ou des extraits de séries de science-fiction recyclés en « vidéo exclusive de vrais aliens ». (un de ces jours il faudra que quelqu’un lance une application Shazam pour les extraits vidéo).
En tous cas les usages risquent d’être énormes : pour un film comme Forrest Gump avec Forrest qui croise des célébrités, plus besoin de bricoler des images d’archives tant bien que mal, on aurait quelque chose de bien plus flexible.
J’imagine que l’on verra aussi des usages en fiction avec des personnalités encore en vie. Bruce Willis s’est fait une spécialité d’apparaître dans des films à petit budget et assez mauvais, en venant un ou deux jours sur le plateau pour tourner un minimum de scènes et encaisser son chèque puis en laissant une doublure crâne l’interpréter de dos autant que possible : avec du deep fake, il n’aurait même pas à sortir de son salon et le réalisateur aurait un acteur numérique plus motivé que le vrai Bruce.
Oui tout ça ouvre des perspectives abyssales. Quant aux voix, il ne m’étonnerait pas que d’ici 5/10 ans on fasse du doublage avec le matériel de la voix originale, les caractéristiques majeures de la voix de l’acteur seraient conservées mais « enfichées » dans une autre langue… je me demandes si il y à de la recherche la dessus. ça me semble bien plus difficile que pour de l’image . (ça serait une bonne chose pour certaines séries ou films littéralement massacrés par un doublage à petit budget. On croit que les sous titres sont l’alternative mais c’est faux; quand il n’y à pas les sous, la traduction pour les sous titres peut s’avérer des plus médiocres)
oui le deep voice est deja une actualite. Depuis un an, tu peux prendre des samples de voix, pour modifier une voix existante. 2 minutes paper a fait une super video a ce sujet.
[QUOTE= »kin4n, post: 348989, member: 58986″]
oui le deep voice est deja une actualite. Depuis un an, tu peux prendre des samples de voix, pour modifier une voix existante. 2 minutes paper a fait une super video a ce sujet.
[/QUOTE]
Excellente cette chaine! Et effectivement ça semble plus proche que je ne l’imaginais:
[MEDIA=youtube]0sR1rU3gLzQ[/MEDIA]
[MEDIA=youtube]lLa9DUiJICk[/MEDIA]
yup, excellente la chaine, elle m aide beaucoup lol