Microsoft AI、MAI-Transcribe-1.5 を発表：人工分析で WER2.4%、FLEURS 精度は業界最高水準、長音響変換速度は最大 5 倍向上

先週、Microsoft AI は MAI-Transcribe-1.5 を発表しました。これは同社が開発した音声認識（Speech-to-Text）ファミリーの2回目のバージョンです。このモデルは、43 の言語、アクセント、およびノイズの多い環境における精度を目標としています。Microsoft チームは、これを本番環境での文字起こしワークロード向けに位置付けています。 MAI-Transcribe-1.5 とは何か MAI-Transcribe-1.5 は自動音声認識（Automatic Speech Recognition: ASR）モデルです。入力はオーディオで、出力はテキストとなります。Microsoft によって自社開発され、サードパーティの基盤上には構築されていません。このモデルは単一のシステムで43 の言語を処理します。多様なアクセント、方言、および現実世界の音響条件に最適化されています。 Microsoft はこれを Copilot、Teams、GitHub、Dynamics 365 Contact Centre に統合しています。また、同社のモデルプラットフォームである Foundry でも利用可能です。 精度に関するケース ここでいう精度は、単語誤り率（Word-Error-Rate: WER）によって測定されます。WER が低いほど、文字起こしされた単語あたりのミスが少ないことを意味します。Microsoft は FLEURS において43 の言語で最高クラスの WER を報告しています。FLEURS は標準的な多言語文字起こしベンチマークです。 Artificial Analysis リーダーボードでは、このモデルは2.4%の WER を記録しました。これは競争の激しいオープンなベンチマークにおいて3位に位置することを意味します。つまり、状況は分かれており、Microsoft チームは FLEURS では1位、Artificial Analysis では3位であると主張しています。 言語拡張は、もう一つの精度向上の物語です。対応言語数は 25 から 43 に拡大しました。追加された 18 の新言語において、精度を損なうことなくサポートされています。そのうち 10 は南アジア諸国のもので、ベンガル語、タミル語、テルグ語が含まれます。残りの 8 つはヨーロッパ諸国の言語で、ウクライナ語、ギリシャ語、カタルーニャ語などが該当します。 速度 MAI-Transcribe-1.5 は、Artificial Analysis のリーダーボードにおいて、精度と速度の両面で首位を維持しています。同等の精度を持つ他のモデルと比較して、最大 5 倍高速で動作します。この効果は特に長時間の音声ファイルにおいて顕著です。本モデルであれば、1 時間の音声を 15 秒未満で書き起こすことが可能です。 Microsoft は、長時間音声における処理速度が Gemini 3.1、Scribe v2、GPT-4o-Transcribe を最大 5 倍上回るとしています。先行する MAI-Transcribe-1 と比較した場合、Azure の仕様書には長文推論において最大 5.7 倍の高速化が記載されています。大量のアーカイブを処理するバッチパイプラインにおいては、このレイテンシ（遅延時間）の差はすぐに蓄積・拡大します。 キーワード（エンティティ）バイアス：理解すべき機能 汎用的な書き起こしツールは、ドメイン固有の単語においてしばしば失敗します。これには人名、製品名、医療用語、社内略語などが含まれます。これらの単語は、企業ユーザーにとって最も重要な要素であることが多いです。 MAI-Transcribe-1.5 は、キーワードバイアス（エンティティバイアスとも呼ばれます）機能を追加しました。ユーザーはドメイン固有のキーワードリストを指定します。Azure の仕様書では最大 200 個までのキーワードをサポートしています。本モデルはこのリストに対して予測を偏向させます。ただし、重要な点として、盲目的に一致させるわけではありません。共有された文脈（コンテキスト）を用いて、バイアスを適用すべきタイミングを判断します。Microsoft によると、バイアス機能を使用した場合、FLEURS における WER（単語誤り率）が 30% 削減されたと報告されています。 短い例でその効果が示されます。バイアスを与えない場合、名前は「Sean」「Oif」「Societal」として表示されますが、提供された名前リストを使用すると、「Shaun」「Aoife」「Xochitl」を正しく復元できます。これは、専門用語が多い会議、医療現場、コールセンターにおいて特に重要です。 ユースケース Azure モデルカードには、具体的な生産環境でのシナリオが記載されています。それぞれが一般的なエンジニアリングの負荷に対応しています: メディアやコンテンツプラットフォーム向けの動画字幕。 正確な字幕に依存するアクセシビリティツール。 Teams 型コラボレーションツール向けの会議文字起こし。 コンタクトセンターおよびサポート分析のための通話分析。 高速なドラフト文字起こしが必要なコンテンツ作成ワークフロー。 推論前に音声からテキストへ変換するボイスエージェント。 入力言語が不明な場合、自動言語識別機能が役立ちます。このモデルは手動設定なしで発話された言語を検出します。 MAI-Transcribe-1.5 と MAI-Transcribe-1 の比較 以下の表は、公表されている事実のみを用いて 2 つの世代を比較したものです。 属性 | MAI-Transcribe-1 | MAI-Transcribe-1.5 ---|---|--- 対応言語数 | 25 | 43 キーワード/エンティティバイアス | 記載なし | 最大 200 キーワード 長文推論速度 | ベースライン | 最大 5.7 倍高速化 Artificial Analysis WER | 未指定 | 2.4%（ランク 3 位） FLEURS 順位（Microsoft 発表） | 最先端技術 | 43 言語で最高クラス性能 自動言語識別 | 未指定 | あり ライフサイクル | 先行リリース | 一般提供 (GA) 入力/出力 | オーディオ / テキスト | オーディオ / テキスト 強みと制限 強み: 単一モデルによる 43 カ国語対応は、従来の 25 カ国語から拡大されました。 キーワードやエンティティのバイアス適用により、FLEURS 評価において WER（単語誤り率）が最大 30% 削減されます。 1 時間の音声データを 15 秒未満で転写可能です。 現在、Azure AI Foundry を通じて一般利用が可能になりました。 Microsoft によると、ノイズの多い実世界の音声に対しても堅牢です。 制限事項: ダイアライゼーション（話者分離）機能はまだ提供されていないため、話者ラベルは使用できません。 ネイティブなストリーミング API が存在しないため、リアルタイム利用には制限があります。 精度、速度、コストに関する複数の主張は、第一当事者（Microsoft 自身）によるものです。 Artificial Analysis のランキングでは、2 つの競合他社に次いで第 3 位です。 出典 MAI-Transcribe-1.5 の紹介 — Microsoft AI MAI-Transcribe-1.5 モデルカード — Azure AI Foundry MAI-Transcribe-1.5 Foundry API ドキュメント MAI-Transcribe-1.5 クックブック MAI プレイグラウンド 本記事「Microsoft AI Introduces MAI-Transcribe-1.5: 2.4% WER on Artificial Analysis, Best-in-Class FLEURS Accuracy, and Up to 5x Faster Long-Audio Transcription」は、もともと MarkTechPost で公開されたものです。

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト