AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
MarkTechPost·2026年6月8日 17:56·約6分で読める

Microsoft AI、MAI-Transcribe-1.5 を発表:人工分析で WER2.4%、FLEURS 精度は業界最高水準、長音響変換速度は最大 5 倍向上

#ASR#Microsoft#Natural Language Processing#Enterprise AI#Speech Recognition
TL;DR

Microsoft AI は、43言語対応と驚異的な速度向上を特徴とする音声認識モデル「MAI-Transcribe-1.5」を発表し、エンタープライズ向け実用性を大幅に強化した。

AI深層分析2026年6月9日 14:11
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
3

キーポイント

1

高精度な多言語・多環境対応

43言語と多様なアクセント、ノイズの多い環境に対応し、FLEURS ベンチマークで業界最高水準の精度を達成。特に南アジアや欧州の言語カバー率が拡大した。

2

驚異的な処理速度の向上

同等精度の競合モデルと比較して最大5倍高速化し、1時間の音声データを15秒未満で転写可能。長文音声やバッチ処理におけるレイテンシを劇的に短縮した。

3

ドメイン特化型キーワードバイアシング

医療用語や社名など最大200個の専門用語リストを提供可能にし、文脈を理解しながら転写精度を30%向上させる機能を搭載した。

4

Microsoft エコシステムへの統合

Copilot、Teams、GitHub、Dynamics 365 Contact Centre などの主要製品および Foundry プラットフォームへ直接統合され、即座に生産環境で利用可能になる。

5

性能と機能の大幅な向上

MAI-Transcribe-1.5 は、43言語への対応拡大、最大200キーワードのエンティティバイアスサポート、および最長5.7倍の高速化を実現し、FLEURSベンチマークで業界最高水準を達成しました。

6

主要な制限事項

現時点では話者分離(ダイアリゼーション)やネイティブストリーミングAPIが未対応であり、リアルタイム利用には制約があります。

影響分析・編集コメントを表示

影響分析

この発表は、音声認識技術における精度と速度の両立という長年の課題に対するMicrosoftの決定的な解決策を示しており、特に大規模な音声アーカイブ処理やリアルタイム通訳が必要なエンタープライズ環境での採用を加速させるだろう。競合他社との明確な差別化(高速化と専門用語対応)により、Azure のクラウドサービス競争力をさらに強化し、Copilot などの AI エージェントの信頼性を高める重要な役割を果たす。

編集コメント

Microsoft は自社開発モデルの精度と速度を同時に向上させることで、競合他社のクラウドサービスに対する明確な優位性を確立しました。特に専門用語対応機能は、汎用モデルでは解決が難しかった実務課題への直接的な回答であり、今後のエンタープライズAI市場の動向を左右する重要な一歩です。

先週、Microsoft AI は MAI-Transcribe-1.5 を発表しました。これは同社が開発した音声認識(Speech-to-Text)ファミリーの2回目のバージョンです。このモデルは、43 の言語、アクセント、およびノイズの多い環境における精度を目標としています。Microsoft チームは、これを本番環境での文字起こしワークロード向けに位置付けています。

MAI-Transcribe-1.5 とは何か

MAI-Transcribe-1.5 は自動音声認識(Automatic Speech Recognition: ASR)モデルです。入力はオーディオで、出力はテキストとなります。Microsoft によって自社開発され、サードパーティの基盤上には構築されていません。このモデルは単一のシステムで43 の言語を処理します。多様なアクセント、方言、および現実世界の音響条件に最適化されています。

Microsoft はこれを Copilot、Teams、GitHub、Dynamics 365 Contact Centre に統合しています。また、同社のモデルプラットフォームである Foundry でも利用可能です。

精度に関するケース

ここでいう精度は、単語誤り率(Word-Error-Rate: WER)によって測定されます。WER が低いほど、文字起こしされた単語あたりのミスが少ないことを意味します。Microsoft は FLEURS において43 の言語で最高クラスの WER を報告しています。FLEURS は標準的な多言語文字起こしベンチマークです。

Artificial Analysis リーダーボードでは、このモデルは2.4%の WER を記録しました。これは競争の激しいオープンなベンチマークにおいて3位に位置することを意味します。つまり、状況は分かれており、Microsoft チームは FLEURS では1位、Artificial Analysis では3位であると主張しています。

言語拡張は、もう一つの精度向上の物語です。対応言語数は 25 から 43 に拡大しました。追加された 18 の新言語において、精度を損なうことなくサポートされています。そのうち 10 は南アジア諸国のもので、ベンガル語、タミル語、テルグ語が含まれます。残りの 8 つはヨーロッパ諸国の言語で、ウクライナ語、ギリシャ語、カタルーニャ語などが該当します。

速度

MAI-Transcribe-1.5 は、Artificial Analysis のリーダーボードにおいて、精度と速度の両面で首位を維持しています。同等の精度を持つ他のモデルと比較して、最大 5 倍高速で動作します。この効果は特に長時間の音声ファイルにおいて顕著です。本モデルであれば、1 時間の音声を 15 秒未満で書き起こすことが可能です。

Microsoft は、長時間音声における処理速度が Gemini 3.1、Scribe v2、GPT-4o-Transcribe を最大 5 倍上回るとしています。先行する MAI-Transcribe-1 と比較した場合、Azure の仕様書には長文推論において最大 5.7 倍の高速化が記載されています。大量のアーカイブを処理するバッチパイプラインにおいては、このレイテンシ(遅延時間)の差はすぐに蓄積・拡大します。

キーワード(エンティティ)バイアス:理解すべき機能

汎用的な書き起こしツールは、ドメイン固有の単語においてしばしば失敗します。これには人名、製品名、医療用語、社内略語などが含まれます。これらの単語は、企業ユーザーにとって最も重要な要素であることが多いです。

MAI-Transcribe-1.5 は、キーワードバイアス(エンティティバイアスとも呼ばれます)機能を追加しました。ユーザーはドメイン固有のキーワードリストを指定します。Azure の仕様書では最大 200 個までのキーワードをサポートしています。本モデルはこのリストに対して予測を偏向させます。ただし、重要な点として、盲目的に一致させるわけではありません。共有された文脈(コンテキスト)を用いて、バイアスを適用すべきタイミングを判断します。Microsoft によると、バイアス機能を使用した場合、FLEURS における WER(単語誤り率)が 30% 削減されたと報告されています。

短い例でその効果が示されます。バイアスを与えない場合、名前は「Sean」「Oif」「Societal」として表示されますが、提供された名前リストを使用すると、「Shaun」「Aoife」「Xochitl」を正しく復元できます。これは、専門用語が多い会議、医療現場、コールセンターにおいて特に重要です。

ユースケース

Azure モデルカードには、具体的な生産環境でのシナリオが記載されています。それぞれが一般的なエンジニアリングの負荷に対応しています:

メディアやコンテンツプラットフォーム向けの動画字幕。

正確な字幕に依存するアクセシビリティツール。

Teams 型コラボレーションツール向けの会議文字起こし。

コンタクトセンターおよびサポート分析のための通話分析。

高速なドラフト文字起こしが必要なコンテンツ作成ワークフロー。

推論前に音声からテキストへ変換するボイスエージェント。

入力言語が不明な場合、自動言語識別機能が役立ちます。このモデルは手動設定なしで発話された言語を検出します。

MAI-Transcribe-1.5 と MAI-Transcribe-1 の比較

以下の表は、公表されている事実のみを用いて 2 つの世代を比較したものです。

属性 | MAI-Transcribe-1 | MAI-Transcribe-1.5

---|---|---

対応言語数 | 25 | 43

キーワード/エンティティバイアス | 記載なし | 最大 200 キーワード

長文推論速度 | ベースライン | 最大 5.7 倍高速化

Artificial Analysis WER | 未指定 | 2.4%(ランク 3 位)

FLEURS 順位(Microsoft 発表) | 最先端技術 | 43 言語で最高クラス性能

自動言語識別 | 未指定 | あり

ライフサイクル | 先行リリース | 一般提供 (GA)

入力/出力 | オーディオ / テキスト | オーディオ / テキスト

強みと制限

強み:

単一モデルによる 43 カ国語対応は、従来の 25 カ国語から拡大されました。

キーワードやエンティティのバイアス適用により、FLEURS 評価において WER(単語誤り率)が最大 30% 削減されます。

1 時間の音声データを 15 秒未満で転写可能です。

現在、Azure AI Foundry を通じて一般利用が可能になりました。

Microsoft によると、ノイズの多い実世界の音声に対しても堅牢です。

制限事項:

ダイアライゼーション(話者分離)機能はまだ提供されていないため、話者ラベルは使用できません。

ネイティブなストリーミング API が存在しないため、リアルタイム利用には制限があります。

精度、速度、コストに関する複数の主張は、第一当事者(Microsoft 自身)によるものです。

Artificial Analysis のランキングでは、2 つの競合他社に次いで第 3 位です。

出典

MAI-Transcribe-1.5 の紹介 — Microsoft AI

MAI-Transcribe-1.5 モデルカード — Azure AI Foundry

MAI-Transcribe-1.5 Foundry API ドキュメント

MAI-Transcribe-1.5 クックブック

MAI プレイグラウンド

本記事「Microsoft AI Introduces MAI-Transcribe-1.5: 2.4% WER on Artificial Analysis, Best-in-Class FLEURS Accuracy, and Up to 5x Faster Long-Audio Transcription」は、もともと MarkTechPost で公開されたものです。

原文を表示

Last week Microsoft AI has announced MAI-Transcribe-1.5. It is the second iteration of the company’s in-house speech-to-text family. The model targets accuracy across 43 languages, accents, and noisy environments. The Microsoft team positions it for production transcription workloads.

What is MAI-Transcribe-1.5

MAI-Transcribe-1.5 is an automatic speech recognition (ASR) model. It takes audio as input and returns text. Microsoft built it in-house, not on a third-party base. The model handles 43 languages with a single system. It is optimized for diverse accents, dialects, and real-world acoustic conditions.

Microsoft is integrating it into Copilot, Teams, GitHub, and Dynamics 365 Contact Centre. It is also available in Foundry, Microsoft’s model platform.

The Accuracy Case

Accuracy here is measured by Word-Error-Rate (WER). Lower WER means fewer mistakes per transcribed word. Microsoft reports best-in-class WER across 43 languages on FLEURS. FLEURS is a standard multilingual transcription benchmark.

On the Artificial Analysis leaderboard, the model posts a WER of 2.4%. That places it third on a competitive open benchmark. So the picture is split. Microsoft team claims first place on FLEURS and third on Artificial Analysis.

The language expansion is the other accuracy story. Coverage grew from 25 languages to 43. The 18 new languages were added without compromising accuracy. Ten of them are South Asian, including Bengali, Tamil, and Telugu. Eight are European, such as Ukrainian, Greek, and Catalan.

Speed

MAI-Transcribe-1.5 leads on accuracy-times-speed on the Artificial Analysis leaderboard. It runs up to 5x faster than models of comparable accuracy. The effect is largest on long audio files. The model can transcribe an hour of audio in under 15 seconds.

Microsoft cites up to 5x speedups over Gemini 3.1, Scribe v2, and GPT-4o-Transcribe on long audio. Against the prior MAI-Transcribe-1, the Azure card lists up to 5.7x faster long-form inference. For batch pipelines processing large archives, that latency gap compounds quickly.

Keyword (Entity) Biasing: The Feature Worth Understanding

Generic transcribers often fail on domain-specific words. These include people, product names, medical terms, and internal acronyms. Those words frequently matter most to enterprise users.

MAI-Transcribe-1.5 adds keyword biasing, also called entity biasing. You supply a list of domain-specific keywords. The Azure card supports up to 200 keywords. The model biases its predictions toward that list. Critically, it does not blindly force matches. It uses shared context to decide when biasing should apply. Microsoft reports a 30% WER reduction on FLEURS when biasing is used.

A short example shows the effect. Without biasing, names render as “Sean,” “Oif,” and “Societal.” With a supplied name list, the model recovers “Shaun,” “Aoife,” and “Xochitl.” This is relevant for meetings, healthcare, and call centers with niche vocabulary.

Use Cases

The Azure model card lists concrete production scenarios. Each maps to a common engineering workload:

Video captions for media and content platforms.

Accessibility tools that depend on accurate captions.

Meeting transcription for Teams-style collaboration tools.

Call analysis for contact centers and support analytics.

Content creation workflows that need fast draft transcripts.

Voice agents that convert speech to text before reasoning.

Automatic language identification helps when the input language is unknown. The model detects the spoken language without a manual setting.

MAI-Transcribe-1.5 vs MAI-Transcribe-1

The table below compares the two generations using stated facts only.

AttributeMAI-Transcribe-1MAI-Transcribe-1.5

Languages covered2543

Keyword/entity biasingNot listedUp to 200 keywords

Long-form inference speedBaselineUp to 5.7x faster

Artificial Analysis WERNot specified2.4% (ranked #3)

FLEURS position (per Microsoft)State-of-the-artBest-in-class across 43 languages

Automatic language identificationNot specifiedYes

LifecyclePrior releaseGenerally available (GA)

Input / OutputAudio / TextAudio / Text

Strengths and Limitations

Strengths:

43-language coverage from a single model, up from 25.

Keyword/entity biasing yields up to 30% WER reduction on FLEURS.

Sub-15-second transcription for an hour of audio.

Generally available now through Azure AI Foundry.

Robust on noisy, real-world audio, per Microsoft.

Limitations:

No diarization yet, so speaker labels are unavailable.

No native streaming API, so real-time use is limited.

Several accuracy, speed, and cost claims are first-party.

Ranked third on Artificial Analysis, behind two competitors.

Sources

Introducing MAI-Transcribe-1.5 — Microsoft AI

MAI-Transcribe-1.5 model card — Azure AI Foundry

MAI-Transcribe-1.5 Foundry API documentation

MAI-Transcribe-1.5 Cookbook

MAI Playground

The post Microsoft AI Introduces MAI-Transcribe-1.5: 2.4% WER on Artificial Analysis, Best-in-Class FLEURS Accuracy, and Up to 5x Faster Long-Audio Transcription appeared first on MarkTechPost.

この記事をシェア

関連記事

Latent Space★42026年6月4日 02:13

Microsoft Build でサティア・ナデラ氏と「No Priors」が共演、フロンティア知能プラットフォームを強調

マイクロソフトのサティア・ナデラ最高経営責任者が、AI 専門ポッドキャスト「Latent Space」と「No Priors」の共同特別番組に登場し、同社をフロンティア知能プラットフォームとして位置づける方針を表明した。

The Verge AI★32026年5月20日 00:51

卒業式で AI アナウンサーが名前を誤読・飛ばす

The Verge は、近年人気を集める卒業式の AI 音声アナウンスシステムが、学生の名前を誤って発音したり読み飛ばしたりする事例が多発していることを報じた。

The Verge AI★42026年6月10日 05:24

マイクロソフト AI 担当役員、アンソロピックを「クローディアが意識を持っている」と発言したと批判

マイクロソフトのAI責任者ムスタファ・スレイマンは、アンソロピックが自社のモデル「Claude」について意識があるかのような言及を行ったことを危険視し、これがチャットボットに意識があるような振る舞いをさせる要因になったと指摘した。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む