Question 1

PyTorch 2.11でCPU上でVoxCPMを実行する際の'Dimension out of range'エラーを修正する方法

Accepted Answer

これはPyTorch 2.11.0+における既知のバグで、CPU上でscaled_dot_product_attentionが「Dimension out of range (expected to be in range of [-1, 0], but got -2)」で失敗する原因となります。回避策: PyTorchを2.11未満のバージョン（例: 2.5.1）にダウングレードしてください。CPUのみの場合、pipを使用してtorch==2.5.1をインストールしてください（例: pip install torch==2.5.1）。GPU（CUDA 12.1）の場合、torch==2.5.1+cu121を使用してください。詳細はPyTorch issue #163597を参照してください。

Question 2

VoxCPM2が同じGPU上で複数のサブプロセスワーカーを使用すると、なぜCUDAエラー（例：「Offset increment outside graph capture」）でクラッシュするのですか？

Accepted Answer

これは、torch.compileのCUDAグラフ最適化によって、複数プロセスがGPUメモリプールを共有する際に発生する既知の不安定性です。推奨される回避策は、nano-vllm-voxcpm (https://github.com/a710128/nanovllm-voxcpm) や vllm-omni (https://github.com/OpenBMB/VoxCPM#-production-serving-vllm-omni) のようなシングルプロセスサーバーアーキテクチャを使用することです。これにより、マルチプロセスでのCUDAグラフ競合を回避できます。nano-vllm-voxcpm向けのプロダクション対応FastAPIラッパーは、https://github.com/uttera/uttera-tts-vllm で入手可能です。

Question 3

なぜBlackwell (RTX 5090) GPU上でnano-vllmを用いたLoRAファインチューニングを使用した場合に、音質が徐々に劣化するのか？

Accepted Answer

これは、Blackwell (sm_120) アーキテクチャ上で、CUDAグラフメモリプールとLoRAの競合、およびnano-vllmのスケジューラにおけるオブジェクトリークによって発生する既知の問題です。唯一効果的な回避策は、推論プロセスを2～3時間ごとに定期的に再起動することです。これにより、リークしたオブジェクトがリセットされ、GPUメモリがデフラグされます。恒久的な修正については、issue #326 および nano-vllm-voxcpm #61 を追跡してください。

Question 4

voxcpm2 ボイスクローンが歪んで悪魔のような出力を生成し、オーディオの長さが正しくないのはなぜですか？

Accepted Answer

これはvoxcpm2およびvoxcpm1.5における既知の不安定性です。一時的な回避策として、同じ入力で正しく動作するvoxcpm0.5bに切り替えてください。まだ恒久的な修正はありません。更新についてはGitHub issueを監視してください。

Question 5

torch.compileを使用する際の「triton is not installed」という警告を修正する方法は？

Accepted Answer

使用しているPyTorchに対応したtritonバージョンをインストールしてください。torch==2.5.1の場合は、triton==3.1.0（NVIDIA GPU搭載のLinux）を使用します。ハードウェアがtritonをサポートしているか確認してください（compute capability 7.0以上）。Windowsのサポートは限定的です。機能に影響がない場合は警告を無視してください。修正方法：pip install triton==3.1.0。誤ったバージョン（例：2.1.0でエラーが発生した場合）をインストールした場合は、アンインストールして正しいバージョンをインストールしてください：pip uninstall triton、その後pip installで正しいバージョンをインストール。

VoxCPM

概要

README プレビュー

FAQ (5)

同类型项目

puppeteer

PaddleOCR

crawl4ai

supervision