Microsoftが1枚の画像から3秒でPBR対応の3Dアセットを生成できるモデルを公開しました。パラメータ数は4B、MITライセンスのオープンソースです。
この記事でわかること:
- TRELLIS.2の概要と従来モデルとの違い
- 独自技術「O-Voxel」が解決する課題
- 生成品質・速度・対応形式の詳細
- ローカルで動かすための環境要件
https://github.com/microsoft/TRELLIS.2
3D生成モデルが抱えていた課題
従来の3D生成モデルは、メッシュをいったんsigned distance field(等値面)として表現する手法が主流でした。この手法は閉じた曲面には強いものの、衣服の布地・葉の裏面・内部に空洞のある構造物など、トポロジーが複雑なオブジェクトを正確に再現できないという制約がありました。
Microsoftの研究チームはこの問題を根本から見直し、O-Voxel(Open Voxel)と呼ぶfield-freeなスパースボクセル表現を提案しました。等値面に依存しないため、開いたサーフェス・非多様体ジオメトリ・内部の閉じた構造体をそのまま扱えます。
TRELLIS.2の主な特徴
高品質・高速・高解像度
パラメータ数4BのDiT(Diffusion Transformer)ベースのモデルで、512³から1536³の解像度での生成に対応しています。NVIDIA H100での計測では次の速度が報告されています。
| 解像度 | 合計時間 | 内訳(形状+マテリアル) |
|---|---|---|
| 512³ | 約3秒 | 2秒 + 1秒 |
| 1024³ | 約17秒 | 10秒 + 7秒 |
| 1536³ | 約60秒 | 35秒 + 25秒 |
最も低い解像度でも実用的な品質が出るため、プロトタイプ確認用途であれば数秒で結果を得られます。
PBRマテリアルの完全対応
生成されるアセットはBase Color・Roughness(粗さ)・Metallic(金属感)・Opacity(透明度)の4チャネルを持ちます。単純な色情報だけでなく光学的な物性まで生成されるため、Blender・Unity・Unreal Engineといった3Dソフトウェアにそのままインポートして使えます。
出力形式はGLB(glTF Binary)で、WebGLやリアルタイムレンダリング環境とも互換性があります。
O-Voxelによる高速なメッシュ変換
O-Voxelからテクスチャ付きメッシュへの変換は、シングルCPUで10秒未満、CUDA環境では100ms未満で完了します。推論後の後処理が軽いため、パイプラインに組み込んでも遅延が生じにくいです。
利用環境の要件
Linux専用で、NVIDIAのGPU(VRAM 24GB以上)が必要です。推奨はA100またはH100で、CUDA 12.4・Python 3.8以上・Condaが前提となります。
セットアップは公式のスクリプトで行います。
git clone -b main https://github.com/microsoft/TRELLIS.2.git --recursive
cd TRELLIS.2
. ./setup.sh --new-env --basic --flash-attn --nvdiffrast --nvdiffrec --cumesh --o-voxel --flexgemm
モデルウェイトはHugging Faceに公開されており、推論コード内で自動ダウンロードされます。
from trellis2.pipelines import Trellis2ImageTo3DPipeline
pipeline = Trellis2ImageTo3DPipeline.from_pretrained("microsoft/TRELLIS.2-4B")
pipeline.cuda()
Hugging Face Spacesにデモも公開されているため、ローカル環境を用意せずに動作を確認できます。
https://huggingface.co/spaces/microsoft/TRELLIS.2
前バージョンTRELLISとの違い
2024年末に公開されたTRELLIS(初代)は最大2Bパラメータで、Radiance Field・3D Gaussian・メッシュの3形式を出力していました。出力形式は豊富でしたが、トポロジーの制約はSLaT(Structured LATent)表現に依存していました。
TRELLIS.2はO-Voxelに一本化することでトポロジー制約を撤廃し、パラメータ数を4Bに増やして品質と速度を両立させた後継モデルです。ComfyUIのラッパーやRunPodへのデプロイテンプレートなど、コミュニティによる周辺ツールもすでに整備されています。
まとめ
TRELLIS.2はO-Voxel表現によって従来モデルが苦手としていた複雑なトポロジーを扱えるようになり、4Bパラメータで512³解像度のアセットを約3秒で生成します。MITライセンスで公開されており、学術・商用いずれの目的にも利用できます。ゲームアセット・プロダクトビジュアライゼーション・AR/VRコンテンツ制作など、画像素材を3Dに変換したいユースケースで試す価値があります。