Reconstructing Hand-Held Objects from Monocular Video
Accueil » Demain, le scan 3D au bout des doigts !

Demain, le scan 3D au bout des doigts !

Cet article est également disponible en: Anglais

Le scan 3D/la numérisation 3D ont fait d’énormes progrès ces dernières années, qu’il s’agisse de photogrammétrie, de captation par LiDAR ou d’approches encore naissantes comme les NERF, qui reposent sur l’IA. Qualité en hausse, prix en baisse, rapidité de numérisation : les techniques sont toujours plus performantes et accessibles.

Les approches restent cependant souvent fastidieuses : la photogrammétrie nécessite ainsi de faire de multiples photos en tournant autour du sujet.

A l’occasion du SIGGRAPH Asia, qui se tenait en décembre, nous avons pu découvrir un ambitieux projet qui propose une toute autre approche : il suffit de filmer un objet que l’on tient dans la main pour en obtenir une reconstruction 3D ! Le gros avantage étant qu’il n’est plus nécessaire d’apprendre à faire une prise de vue adaptée, là où la photogrammétrie demande de la pratique. Pas de matériel complexe non plus, une simple vidéo au smartphone suffira.

Intitulée Reconstructing Hand-Held Objects from Monocular Video, la publication explique le concept de cette méthode de scan 3D :

  • la main fait tourner l’objet devant la caméra, ce qui permet de voir l’objet sous différents angles ;
  • un tracking de la main est effectué, afin de déterminer la pose de la main et son mouvement par rapport à la caméra, ce qui permet donc de déterminer la position/rotation de l’objet. Un système de maps de segmentations permet en parallèle de distinguer la main de l’objet.
  • l’algorithme reconstruit alors le modèle 3D à partir de ces informations. Comme la main et l’objet sont analysés en tant qu’éléments distincts, on obtient en fait deux meshes, la main et l’objet qui nous intéresse. Celui-ci peut donc être isolé.
Reconstructing Hand-Held Objects from Monocular Video - Scan 3D

En outre, l’équipe a mis en place trois modules additionnels qui améliorent les résultats de différentes manières :

  • le premier permet de compenser en partie les imprécisions sur le tracking des mains ;
  • le second permet de modéliser le fait que l’objet ne sera pas forcément tenu fixement par la main ;
  • le troisième améliore la reconstruction 3D de l’objet.

La vidéo ci-dessous vous donnera plus de détails. Après une introduction présentant la problématique, certains travaux existants et l’intérêt de l’approche présentée, la méthode est détaillée à partir de 0:54 en soulignant les défis et le fonctionnement technique global.

A partir de 2 minutes 55, vous trouverez des exemples de résultats obtenus avec cette méthode de scan 3D, comparés à ceux obtenus par d’autres méthodes existantes. Les exemples donnés sont d’autant plus impressionnants que la méthode fonctionne aussi sur des objets sans texture.

Reconstructing Hand-Held Objects from Monocular Video est un projet de Di Huang, Xiaopeng Ji, Xingyi He, Jiaming Sun, Tong He, Qing Shuai, Wanli Ouyang, Xiaowei Zhou (The University of Sydney, Shanghai AI Laboratory, Image Derivative Inc., State Kay Lab of CAD&CG, Zhejiang University).

La page du projet proposera bientôt du code permettant d’expérimenter avec cette technique. On espère par ailleurs que ce projet inspirera rapidement des applications permettant d’en tirer parti.

Reconstructing Hand-Held Objects from Monocular Video  - scan 3D
Exemples de résultats comparés à d’autres méthodes et au résultat optimal (« ground truth »/GT, à droite)

Laissez un commentaire

A Lire également