1
各コンポーネントの解説
STT
Speech-to-Text — 音声認識
| エンジン | 種別 | レイテンシ |
VRAM | 日本語品質 | コスト | 備考 |
| ReazonSpeech |
セルフホスト(GPU) |
~317ms |
1,276 MiB |
◎ 日本語特化 |
無料 |
現在採用中。500msプレバッファで精度UP |
| Moonshine |
セルフホスト(GPU) |
~283ms |
222 MiB |
○ 良好 |
無料 |
最軽量・最速、webm直送OK |
| Deepgram |
API |
~100-300ms |
— |
○ |
従量課金 |
ストリーミングSTT対応 |
| Whisper (OpenAI) |
API |
~500ms |
— |
◎ |
従量課金 |
高精度だがリアルタイム不向き |
LLM
Large Language Model — 応答生成
| エンジン | 種別 | TTFT |
品質 | コスト | 備考 |
| Gemini 3.1 Flash-Lite |
API |
~1.0s |
○ |
安い |
2.5より40%高速。Gemini最速 |
| Groq (Llama系) |
API |
~0.3s |
○ |
安い |
現在フォールバック |
| GPT-4o |
API |
~0.5s |
◎ |
高い |
Realtime API内蔵 |
| Gemini 2.5 Flash |
API |
~0.3s |
◎ |
中 |
Flash-Liteの上位 |
LLM
TTFT ランキング(実測値・モデル別, 2026-03-08)
TTFT = Time To First Token。ap-northeast-1から実測。Groqは100回、OpenAI 100回、Gemini 20回計測(2-3秒間隔)。
| 順位 | プロバイダ | モデル |
Min | P10 | 中央値 | 平均 | P90 | Max | SD |
備考 |
| 🥇 1 |
Groq |
Llama 3.1 8B Instant |
186 | 187 | 190ms | 191 | 197 | 461 | 27 |
最速・最安定。N=100 |
| 🥈 2 |
Groq |
Llama 3.3 70B |
186 | 189 | 200ms | 220 | 289 | 301 | 40 |
70Bでも高速。N=100 |
| 🥉 3 |
OpenAI |
GPT-4o-mini |
340 | 428 | 549ms | 772 | 695 | 14,638 | — |
N=100。外れ値1件あり |
| 4 |
OpenAI |
GPT-4o |
301 | 468 | 617ms | 778 | 1,237 | 6,316 | — |
N=100。品質最高。P90大 |
| 5 |
Google |
Gemini 3.1 Flash-Lite |
872 | 884 | 1,008ms | 1,097 | 1,366 | 1,789 | 219 |
N=20。2.5より40%高速。採用中 |
| 6 |
Google |
Gemini 3.0 Flash |
1,053 | 1,053 | 1,196ms | 1,439 | 2,419 | 2,666 | 524 |
N=14 (6err)。不安定 |
| 7 |
Google |
Gemini 2.5 Flash-Lite |
1,558 | 1,605 | 1,670ms | 1,714 | 1,857 | 2,213 | 145 |
N=20。安定だが遅い |
TTS
Text-to-Speech — 音声合成
| エンジン | 種別 | レイテンシ |
VRAM | 日本語品質 | ゼロショット | コスト | 備考 |
| Kokoro |
セルフホスト(GPU) |
~50ms |
~500 MiB |
◎ |
✕ プリセット |
無料 |
現在採用中。Non-autoregressive、最速 |
| ElevenLabs |
API |
200-500ms |
— |
◎ |
◎ Instant Clone |
$99/月 |
音声クローン対応、高品質 |
| VOICEVOX |
セルフホスト(GPU) |
~200ms |
~800 MiB |
◎ |
✕ プリセット |
無料 |
キャラクター音声、40話者 |
| Style-Bert-VITS2 |
セルフホスト(GPU) |
~500ms |
~1,500 MiB |
◎ |
✕ 要学習 |
無料 |
日本語特化、感情表現 |
| AivisSpeech |
セルフホスト(GPU) |
~300ms |
~800 MiB |
◎ |
✕ プリセット |
無料 |
VOICEVOX互換 |
VC
Voice Conversion — 声質変換
| エンジン | 種別 | レイテンシ |
VRAM | 品質 | ゼロショット | 備考 |
| RVC |
セルフホスト(GPU) |
250-380ms |
~2,000 MiB |
◎ |
✕ 要学習 |
現在採用中。1s→250ms, 5s→310ms, 8s→380ms |
| OpenVoice V2 |
セルフホスト(GPU) |
80-90ms |
~800 MiB |
○ |
◎ リファレンス |
最速VC。RVCと共存可 |
| Seed-VC |
セルフホスト(GPU) |
330-345ms |
~6,000 MiB |
◎ |
◎ リファレンス |
高品質。RVCと共存不可、起動~70秒 |
| LLVC |
セルフホスト(GPU) |
45-120ms |
~500 MiB |
○ |
✕ 要学習 |
超低レイテンシ。他VCと共存可 |
E2E
End-to-End — 音声→音声直接変換
| エンジン | 種別 | レイテンシ |
日本語 | 備考 |
| Gemini 2.5 Flash Native Audio |
API |
~0.3-0.5s |
◎ 24言語 |
30種HD音声、WebSocket双方向。音声→音声直接 |
| GPT-4o Realtime / gpt-realtime |
API |
~0.5s |
◎ |
現在採用中。安定性高い |
| Qwen3-Omni |
セルフホスト |
未検証 |
○ 多言語 |
MoEアーキテクチャ。L4で動くか要検証 |
| Amazon Nova 2 Sonic |
API |
低レイテンシ |
△ 未知数 |
AWS環境と親和性高 |
2
パイプライン候補
現行パイプライン(稼働中)
🎤 → GPT-4o Realtime (E2E) → Kokoro TTS → RVC → 🔊
※ STTはReazonSpeechで表示用のみ
🎤 → ReazonSpeech STT → Groq/Gemini LLM → Kokoro TTS → RVC → 🔊
新規候補
🎤 → Gemini Native Audio (E2E) → 🔊
メリット
最安E2E、低レイテンシ、日本語◎、30音声
デメリット
RVC連携不可、音声カスタマイズ限定的
🎤 → gpt-realtime (E2E) → 🔊
or → Kokoro → RVC → 🔊
🎤 → Moonshine STT → Gemini Flash-Lite → Kokoro TTS → RVC → 🔊
メリット
最安パイプライン、RVC使える、既存資産活用
🎤 → ElevenLabs STT → 任意LLM → ElevenLabs TTS → 🔊
メリット
音声クローン高品質、オーケストレーション済み
デメリット
コスト高、RVC不可、カスタム音声は要学習
🎤 → Deepgram STT (streaming) → Groq LLM → Kokoro TTS → RVC → 🔊
メリット
ストリーミングSTTで体感改善、RVC使える
評価軸別 最強候補まとめ
| 評価軸 |
最強候補 |
| 最安 |
5. Qwen3-Omni / 6. Gemini Flash-Lite |
| 最速 |
3. Gemini Native Audio |
| 最高品質 |
7. ElevenLabs / 4. gpt-realtime |
| RVC連携可 |
2, 6, 8(パイプライン系) |
| 既存資産活用 |
6. Gemini Flash-Lite改良版 |
| 将来性 |
3. Gemini Native Audio / 5. Qwen3-Omni |
3
検証済み・候補外
以下は検証の結果、採用候補から除外したもの。今後の検討で考慮不要。
| 種別 | 名前 | 除外理由 |
| TTS | Fish Speech 1.5 | L4で~2.6秒。Autoregressive、実用速度出ず |
| TTS | CosyVoice 2 | L4で2-9秒。文長に比例して遅くなる |
| TTS | XTTS v2 | L4で~1秒。日本語に中国語アクセント混入 |
| TTS | Chatterbox | 英語専用。日本語非対応 |
| TTS | Edge-TTS | 500-2000ms。ネットワーク依存で変動大、リアルタイム不向き |
| STT | SenseVoice | ~725ms。Moonshine/ReazonSpeechより遅く優位性なし |
| STT | Parakeet (faster-whisper) | 日本語精度が実用レベルでない |
| E2E | Kyutai Moshi | 日本語対応が限定的 |
| E2E | Qwen3-Omni | L4 24GBではVRAM不足(INT4量子化でも既存サービスと共存不可) |