TechCrunch AI·2026年6月3日 04:02·約4分で読める

マイクロソフト、テキスト記述から AI の動作テストを構築できる新ツールを発表

#LLM #Agent Evaluation #Open Source Framework #Microsoft #AI Safety

TL;DR

Microsoft は開発者が自然言語の記述から AI の振る舞いテストを自動生成・評価できるオープンソースフレームワーク「ASSERT」を発表し、製品固有の AI 挙動検証プロセスを簡素化した。

AI深層分析2026年6月11日 22:15

重要/ 5段階

深度40%

キーポイント

自然言語によるテスト自動生成

開発者が高レベルな目標やポリシーをテキストで記述するだけで、ASSERT が自動的に構造化されたテストケースと評価スコアを生成する機能を提供する。

詳細な挙動追跡と可視化

AI システムが失敗した際のパスや中間アクション、ツール呼び出しなどを記録・可視化し、問題箇所の特定を容易にする。

コンテキストと制約のカスタマイズ

ドキュメント調査エージェントの例のように、特定のシステム文脈やツールの制約を指定することで、製品固有のルールに合わせた評価が可能となる。

文脈依存型評価の必要性

汎用的な評価では捉えきれない、アプリケーションや製品のコンテキスト、ポリシー、ツールに依存するAIの振る舞いを検証するために新フレームワークが提供される。

信頼性の高いシステム構築

組織の基準を満たす信頼できるAIシステムを構築するには、アプリケーション固有の多様な次元で評価を行うことが不可欠であるとMicrosoftは強調している。

ASSERT の多段階活用

Bird氏によると、ASSERT はシステムの構築中、デプロイ後、さらには継続的なモニタリングにおいても評価ツールとして使用可能である。

業界全体のテスト重視の転換

AI モデルの能力向上に伴い、業界全体で反復可能なテストや回帰チェックへの注目が強まっており、Stanford の HELM や METR などの評価グループがベンチマークを相次いで公開している。

影響分析・編集コメントを表示

影響分析

この発表は、汎用的な AI ベンチマークから、各企業の独自要件に合わせた「製品固有の評価」へシフトする業界の動きを象徴しています。開発者が自然言語でテストケースを記述できるため、評価プロセスのハードルが下がり、AI システムの信頼性向上と迅速なデプロイが可能になります。特にコンプライアンスやセキュリティ要件が厳しい領域での実装加速が期待されます。

編集コメント

Microsoft のこのツールは、AI エージェントの複雑な挙動を「自然言語」で定義・検証できる点で画期的であり、開発現場における品質保証のワークフローを根本から変える可能性があります。

AI 研究者やラボは、安全性やコンプライアンスから、迎合性やアライメントに至るまで、AI モデルの評価において飛躍的な進歩を遂げてきました。しかし、企業や開発者には新たな特定のニーズが生じています：自社の製品やサービスに対して AI システムが意図した通りに動作していることを確認することです。

そのテストプロセスをよりシンプルにするため、マイクロソフトは火曜日に ASSERT（Adaptive Spec-driven Scoring for Evaluation and Regression Testing の略）を発表しました。

マイクロソフトによると、このオープンソースフレームワークは、AI を活用して目標、ポリシー、または意図された動作に関する高レベルの自然言語記述を、調査可能な包括的で採点済みのテストに変換することで、アプリケーション固有の AI 動作の評価を容易にします。

ASSERT は、AI モデルの期待される動作やポリシーに関する平易な記述を取り込み、それらを許容される動作と許容されない動作の構造化されたセットに変換し、問題シナリオやテストケースを生成して対象システムに対して実行し、結果にスコアを付けます。また、AI システムがたどったパス（中間アクションやツール呼び出しを含む）も記録するため、開発者は失敗が発生した箇所を検査することができます。

開発者は、評価範囲をさらにカスタマイズしたい場合、システムコンテキスト、ツール、制約も提供できます。

例えば、ドキュメント調査用 AI エージェントが社外の人へメールを送信しないこと、機密情報を役員レベルに限定すること、事前の文脈を考慮した簡潔な要約を提供することを指定できます。ASSERT はこれらのルールを使用して、システムが継続的にこれらのルールに従っているかを確認するテストケースを生成します。

image画像クレジット: Microsoft

Microsoft によると、このフレームワークは、AI モデルがアプリケーションや製品のコンテキスト、ポリシー、ツールによって形成された振る舞いをするように意図されている場合に、より広範で一般的な評価では埋められないギャップを埋めるものです。

「私たちが学んだことのひとつに、評価は良い意思決定を行うために絶対に不可欠であるということがあります」と、Microsoft の責任ある AI 担当チーフプロダクトオフィサーである Sarah Bird は述べています。「AI システムの振る舞いを理解していなければ、それが組織の基準を満たしているかどうかを知ることは本当に難しいからです […] 私たちが発見したのは、信頼性の高いシステムを本当に構築したいのであれば、アプリケーション固有の多くの次元について評価を行うべきだということです。」

Bird 氏は、ASSERT はシステムの構築中、デプロイ後、さらには継続的なモニタリング時にも使用できると述べています。

この発表は、AI業界における緩やかだが広範な変化の最中に行われたものです。モデルの能力が高まるにつれ、研究者らは反復可能なテストや回帰チェックに注力しており、Stanford's HELM や MLCommons' AILuminate、また異なる条件下でのモデルの挙動を測定するためのベンチマークを公開している評価グループである METR などがその例です。

*当記事内のリンクを通じてご購入いただいた場合、私たちは少額のコミッションを獲得する可能性があります。これは当社の編集の独立性には影響しません。

Ram は金融およびテクノロジー担当の記者兼編集者です。彼はロイターや Acuris Global で北米および欧州の M&A、株式、規制ニュース、債務市場をカバーし、旅行、観光、エンターテインメント、書籍についても執筆しています。

Ram への連絡や、彼からのアウトリーチの確認は、ram.iyer@techcrunch.com までメールを送信してください。

プロフィールを見る

原文を表示

AI researchers and labs have advanced by leaps and bounds in evaluating AI models for everything from safety and compliance to sycophancy and alignment. But it appears companies and developers are faced with a new, specific need: making sure that their AI system behaves as intended for their specific product or service.

In a bid to make that testing process simpler, Microsoft on Tuesday took the wraps off ASSERT, short for Adaptive Spec-driven Scoring for Evaluation and Regression Testing.

The open-source framework, Microsoft says, makes evaluating application-specific AI behavior easy by using AI to turn high-level, natural-language descriptions of goals, policies, or intended behaviors into thorough, scored tests that can be investigated.

ASSERT takes plain-language descriptions of an AI model’s expected behavior and policies, turns them into a structured set of acceptable and unacceptable behaviors, generates problem scenarios and test cases, runs them against the target system, and scores the results. It can also record the paths the AI system takes, including intermediate actions and tool calls, so developers can inspect where failures happen.

Devs can provide system context, tools, and constraints, too, if they want to further customize what the evaluations cover.

For example, a developer could specify that a document research AI agent shouldn’t send emails to people outside the company, limit confidential information to C-level executives, and provide concise summaries with prior context in mind. ASSERT will use those rules to generate test cases that check whether the system follows those rules on an ongoing basis.

The framework, according to Microsoft, fills a gap that broader, more general evaluations cannot when AI models are intended to behave in a manner that is shaped by an application or product’s context, policies, and tools.

“One of the things we’ve learned is that evaluations are absolutely critical to making good decisions,” said Sarah Bird, chief product officer of Responsible AI at Microsoft. “Because if you don’t understand the behavior of the AI system, it’s really hard to know if it’s meeting your organization’s bar […] What we found is that if you really want to have a trustworthy system, you should evaluate many more dimensions that are application-specific.”

Bird said ASSERT can be used to evaluate systems when they’re being built, after deployment, and even for continuous monitoring.

The release comes amidst a gradual but broader shift in the AI industry. As models grow more capable, researchers are focusing on repeatable testing and regression checks, with Stanford’s HELM, MLCommons’ AILuminate, and evaluation groups like METR rolling out benchmarks to measure how models behave under different conditions.

*When you purchase through links in our articles, we may earn a small commission. This doesn’t affect our editorial independence.*

Ram is a financial and tech reporter and editor. He covered North American and European M&A, equity, regulatory news and debt markets at Reuters and Acuris Global, and has also written about travel, tourism, entertainment and books.

You can contact or verify outreach from Ram by emailing ram.iyer@techcrunch.com.

View Bio

この記事をシェア

Latent Space2026年6月20日 17:06

[AINews] 今日特に大きな出来事はありませんでした

Latent Space は、GLM 5.2 が依然として注目されていると指摘しつつ、AIE WF 2026 の通常チケットが月曜日に完売すると発表しました。同サイト購読者向けに限定割引を提供し、参加者には Warp や Datadog などからのスポンサークレジットも付与されます。

TechCrunch AI★42026年6月20日 01:01

米国がアンソロピックの「Fable 5」発売を禁止、しかし市場は動じず

米国政府は国家安全保障上の懸念から、アマゾンの研究者らがガードレール回避手法を発見したとして、アンソロピックに対し最新モデル「Fable 5」と「Mythos 5」の販売差し止めを命じた。サイバーセキュリティ研究者らはこの措置が危険だとする公開書簡に署名し、同社も他モデルでも同様の抜け道が存在すると指摘している。

GitHub Blog★42026年6月20日 01:00

社内データ分析エージェントの構築方法について

GitHub は、大規模なデータ組織が直面する自己完結型のデータアクセスと洞察提供の課題に対し、AI を活用した信頼性の高い解決策として、社内でデータ分析エージェントを構築したことを発表した。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む

TechCrunch AI·2026年6月3日 04:02·約4分で読める

マイクロソフト、テキスト記述から AI の動作テストを構築できる新ツールを発表

#LLM #Agent Evaluation #Open Source Framework #Microsoft #AI Safety

TL;DR

AI深層分析2026年6月11日 22:15

重要/ 5段階

深度40%

キーポイント

自然言語によるテスト自動生成

詳細な挙動追跡と可視化

AI システムが失敗した際のパスや中間アクション、ツール呼び出しなどを記録・可視化し、問題箇所の特定を容易にする。

コンテキストと制約のカスタマイズ

文脈依存型評価の必要性

信頼性の高いシステム構築

ASSERT の多段階活用

Bird氏によると、ASSERT はシステムの構築中、デプロイ後、さらには継続的なモニタリングにおいても評価ツールとして使用可能である。

業界全体のテスト重視の転換

影響分析・編集コメントを表示

影響分析

編集コメント

開発者は、評価範囲をさらにカスタマイズしたい場合、システムコンテキスト、ツール、制約も提供できます。

image画像クレジット: Microsoft

Bird 氏は、ASSERT はシステムの構築中、デプロイ後、さらには継続的なモニタリング時にも使用できると述べています。

Ram への連絡や、彼からのアウトリーチの確認は、ram.iyer@techcrunch.com までメールを送信してください。

プロフィールを見る

原文を表示

In a bid to make that testing process simpler, Microsoft on Tuesday took the wraps off ASSERT, short for Adaptive Spec-driven Scoring for Evaluation and Regression Testing.

Devs can provide system context, tools, and constraints, too, if they want to further customize what the evaluations cover.

Bird said ASSERT can be used to evaluate systems when they’re being built, after deployment, and even for continuous monitoring.

*When you purchase through links in our articles, we may earn a small commission. This doesn’t affect our editorial independence.*

You can contact or verify outreach from Ram by emailing ram.iyer@techcrunch.com.

View Bio

この記事をシェア

Latent Space2026年6月20日 17:06

[AINews] 今日特に大きな出来事はありませんでした

TechCrunch AI★42026年6月20日 01:01

米国がアンソロピックの「Fable 5」発売を禁止、しかし市場は動じず

GitHub Blog★42026年6月20日 01:00

社内データ分析エージェントの構築方法について

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む

マイクロソフト、テキスト記述から AI の動作テストを構築できる新ツールを発表

キーポイント

影響分析

編集コメント

関連記事

マイクロソフト、テキスト記述から AI の動作テストを構築できる新ツールを発表

キーポイント

影響分析

編集コメント

関連記事