NVIDIA Research a dévoilé un aperçu de ses derniers travaux : un système de deep learning qui transforme des images 2D en modèles 3D.
Pas de photogrammétrie ici, l’idée est de recréer un modèle complet à partir d’une unique photo.
Résultat : une simple image de voiture peut être automatiquement transformée en une version 3D certes approximative, mais fonctionnelle (roues et phares inclus).
L’intérêt est évident : en créant facilement des modèles plausibles, architectes, artistes, développeurs de jeux et designers pourraient peupler très rapidement leurs prototypes, quitte à remplacer en aval ces modèles par des versions plus poussées, ou à les placer en arrière-plan pour que l’illusion fonctionne.
En coulisses, l’équipe a travaillé sur ce projet en plusieurs étapes :
- un GAN (generative adversial network) a permis de synthétiser des images du même objet sous différents angles de vue ;
- ces images ont servi à entraîner le coeur du projet, qui tente de créer des modèles 3D à partir d’images 2D.
Le résultat étant donc GANverse3D, outil qui peut prendre une image 2D, générer un mesh. Le modèle peut par ailleurs être utilisé en complément d’un « moteur de rendu neural 3D », qui permet aux développeurs de personnaliser les objets.
Si des systèmes de ce genre existaient déjà par le passé, la nouveauté ici est de ne pas avoir eu à s’appuyer sur des formes 3D pour l’entraînement du système, et non des images.
Des voitures, et bien plus encore
Si NVIDIA choisit de communiquer sur l’automobile, les chercheurs se sont aussi intéressés à d’autres types d’éléments, comme des oiseaux et chevaux. Là encore, le résultat est approximatif mais prometteur : on peut imaginer, à terme, qu’il sera possible de créer en quelques clics des esquisses de véhicules, personnes, animaux très divers afin de s’en servir pour prototyper un projet.
Bien entendu, tout ceci n’a d’intérêt que si les performances sont au rendez-vous. Nous avons justement pu poser la question directement à NVIDIA Research : le temps de génération d’un modèle est de l’ordre de l’interactif. On est donc loin, très loin devant la photogrammétrie ou la sculpture 3D rapide d’un modèle.
Pour plus d’informations, on consultera un article de blog chez NVIDIA, qui renvoie également à la publication complète.
On y trouvera tous les détails techniques, y compris les limitations et échecs : si un sujet sort trop des données d’apprentissage (un oiseau atypique, une voiture type batmobile très éloignée des standards, une peluche de cheval…), le système donne des résultats parfois très exotiques.
Comme l’explique l’article, NVIDIA souhaite proposer cette technologie sur Omniverse, son système de collaboration dans le cloud. Bien entendu, rien n’empêchera une autre entreprise de reprendre le même système et d’en proposer une implémentation sous une autre forme.
3 commentaires
le penguin j ai un doute lol
J’ai l’impression qu’il utilise la 3D d’autres objets et applique une texture brute par dessus
Très intéressant 😉 Laissons le temps agir. Je pense qu’à terme ca pourra faire des merveilles 😉