新しいものづくりがわかるメディア

RSS


テキスト入力で高解像度3Dコンテンツを高速生成——Nvidia、AIツール「Magic3D」を発表

Nvidiaは、テキストを入力して高解像度の3Dコンテンツを生成できるAIツール「Magic3D」を発表した。イメージコンディショニング技術とテキストプロンプトベースの編集アプローチを融合し、3D合成をコントロールする新たな手法を提供する。

3Dモデルを自動作成するAIツールとしては、Google Researchの「DreamFusion」がある。DreamFusionは、事前学習したText-to-Image拡散モデルでNeRF(Neural Radiance Fields)を最適化することで、テキストを用いた3D合成を行っているが、Nvidiaによると、この手法ではNeRFの最適化にかなりの時間を要することと、生成した3Dモデルの解像度の低さに課題があるという。

これに対して、NvidiaのMagic3Dは、短時間で高解像度の3Dメッシュモデルの作成が可能だ。低解像度拡散モデルから高解像度3Dモデルへ移行する2段階の最適化フレームワークの採用により、DreamFusionの課題を克服。Magic3Dは高品質な3Dメッシュモデルを40分で生成でき、平均1.5時間かかるDreamFusionより約2倍速く、約8倍の高解像度で3Dコンテンツを合成できるとしている。

photo
photo

たとえば英語でテキストプロンプト、「A blue poison-dart frog sitting on a water lily.(スイレンの上に座るコバルトヤドクガエル)」と入力するだけで、鮮やかなブルーのカエルの3Dモデルを生成でき、テキストの一部を変えてモデル編集も可能だ。

photo

また、入力したイメージを使った拡散モデルの微調整や、イメージのスタイルを取り入れた3Dモデルの作成にも対応する。

関連情報

おすすめ記事

 

コメント

ニュース

編集部のおすすめ

連載・シリーズ

注目のキーワード

もっと見る