テキスト入力で高解像度3Dコンテンツを高速生成——Nvidia、AIツール「Magic3D」を発表
2023/02/27 07:00
Nvidiaは、テキストを入力して高解像度の3Dコンテンツを生成できるAIツール「Magic3D」を発表した。イメージコンディショニング技術とテキストプロンプトベースの編集アプローチを融合し、3D合成をコントロールする新たな手法を提供する。
3Dモデルを自動作成するAIツールとしては、Google Researchの「DreamFusion」がある。DreamFusionは、事前学習したText-to-Image拡散モデルでNeRF(Neural Radiance Fields)を最適化することで、テキストを用いた3D合成を行っているが、Nvidiaによると、この手法ではNeRFの最適化にかなりの時間を要することと、生成した3Dモデルの解像度の低さに課題があるという。
これに対して、NvidiaのMagic3Dは、短時間で高解像度の3Dメッシュモデルの作成が可能だ。低解像度拡散モデルから高解像度3Dモデルへ移行する2段階の最適化フレームワークの採用により、DreamFusionの課題を克服。Magic3Dは高品質な3Dメッシュモデルを40分で生成でき、平均1.5時間かかるDreamFusionより約2倍速く、約8倍の高解像度で3Dコンテンツを合成できるとしている。
たとえば英語でテキストプロンプト、「A blue poison-dart frog sitting on a water lily.(スイレンの上に座るコバルトヤドクガエル)」と入力するだけで、鮮やかなブルーのカエルの3Dモデルを生成でき、テキストの一部を変えてモデル編集も可能だ。
また、入力したイメージを使った拡散モデルの微調整や、イメージのスタイルを取り入れた3Dモデルの作成にも対応する。