ElevenLabsとGoogleがArtificial Analysisの更新された音声認識ベンチマークを支配
AI企業ElevenLabsとGoogleが、第三者機関Artificial Analysisの最新音声認識ベンチマークでトップを争い、他社を大きく引き離す結果を示した。
キーポイント
ベンチマークの主要結果
ElevenLabsとGoogleが、更新された音声認識ベンチマークで他社を大きく引き離し、トップを争う結果となった。
競争状況
両社の性能は非常に接近しており、現時点で明確な勝者を決めるのは難しい状況である。
情報源と評価対象
この評価は第三者機関Artificial Analysisが実施したもので、複数の音声認識システムを比較している。
影響分析・編集コメントを表示
影響分析
この記事は、音声認識技術の市場リーダーシップがElevenLabsとGoogleの間で争われていることを示しており、AI業界における競争構造の一端を明らかにしている。ベンチマーク結果は企業の技術選定や投資判断の参考材料となるが、記事の情報量が限られているため、詳細な技術比較や市場影響の分析にはさらなる情報が必要である。
編集コメント
音声認識市場の主要プレイヤーの現状を伝える基本的な記事だが、ベンチマークの詳細な評価方法や具体的なスコア差などの技術的な深掘りが不足している。

ElevenLabsとGoogleは、最高の音声認識を競う戦いで、互角の争いを繰り広げています。新たなベンチマークが、どちらが首位に立つかを明らかにしました。
本記事「ElevenLabsとGoogleがArtificial Analysisの更新版音声認識ベンチマークを席巻」は、The Decoderに最初に掲載されました。
原文を表示
Mar 1, 2026
Artificial Analysis has released version 2.0 of its AA-WER speech-to-text benchmark. ElevenLabs' Scribe v2 leads with a word error rate of just 2.3 percent, followed by Google's Gemini 3 Pro (2.9%) and Mistral's Voxtral Small (3.0%). Google's Gemini 3 Flash (3.1%) and ElevenLabs' older Scribe v1 (3.2%) are close behind. Notably, Google didn't specifically train for transcription—the strong results come from Gemini's general multimodal capabilities. OpenAI's popular open-source Whisper Large v3 (4.2%) lands mid-pack, while Alibaba's Qwen3 ASR Flash (5.9%), Amazon's Nova 2 Omni (6.0%), and Rev AI (6.1%) bring up the rear.
The results hold up in the separate AA-AgentTalk test for speech directed at voice assistants: Scribe v2 (1.6%) and Gemini 3 Pro (1.7%) pull well ahead, with AssemblyAI's Universal-3 Pro taking third at 2.3%.
AI News Without the Hype – Curated by Humans
Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み