#ベンチマークのAIニュース

95件の記事

FFASR リーダーボードの発表：実世界における音声認識の評価基準を提示

Hugging Face が、実世界の環境で音声認識モデルの性能を比較・評価するための新しいベンチマーク指標「FFASR リーダーボード」を発表した。

Hugging Face Blog·6月24日·★★★★

ParallelKernelBench：最先端のLLMはまだ高速なマルチGPUカーネルを記述できない（現時点では）

Together AIが公開したベンチマーク「ParallelKernelBench」の結果により、現在の最先端大規模言語モデルは依然として効率的なマルチGPU用カーネルコードを生成する能力に欠けていることが示された。

Together AI Blog·6月23日·★★★★

MosaicLeaks：研究エージェントは秘密を守れるか？

Hugging Face は、AI エージェントが機密情報を漏洩するリスクを検証する「MosaicLeaks」という評価フレームワークを発表した。

Hugging Face Blog·6月19日·★★★★

LifeSciBench の紹介

OpenAI が、生命科学分野の AI モデル評価を目的としたベンチマーク「LifeSciBench」を発表した。

OpenAI News·6月17日·★★★★

ウェイボーの小型モデル「VibeThinker-3B」がベンチマーク論争を再燃させた理由（15 分読了）

中国の SNS 大手ウェイボーが開発した軽量 AI モデル「VibeThinker-3B」が、その性能に関する議論を再び引き起こしている。この小型モデルがなぜ業界でベンチマーク基準を巡る論争を巻き起こしているのか、その背景と技術的意義について解説する。

TLDR AI·6月17日·★★★★

LangSmith ベンチマークの共有について

LangChain が開発した LangSmith のベンチマーク結果を公開し、AI アプリケーションの評価基準に関する情報を提供しました。

LangChain Blog·6月17日

今日は何も大きな出来事はありませんでした

Smol AI News は、6月10日から11日にかけての期間に、主要なニュースや技術進展がない静かな一日であったと報告しています。

Smol AI News·6月11日·★★★★

FrontierCode の紹介：高品質な生産データベース基準にモデルがどれだけ対応できるかを測定するベンチマーク

オープンソースのメンテナーらが作成した「FrontierCode」は、コードの結合可能性を初めて測定するベンチマークであり、敵対的テストや多段階レビューを含む厳格な QC パイプラインを通じて、モデルが高品質で保守可能なコードを書ける能力を示す最も強力な指標を提供します。

TLDR AI·6月9日·★★★★

LLM に業務を委ねると文書が破損する理由とは？

KDnuggets は、大規模言語モデル（LLM）に文書処理を任せる際に生じるデータ破損のメカニズムと原因について分析している。

KDnuggets·6月9日·★★★★

Import AI 460：報酬ハッキング社会、Anthropic の RSI データ、RL による四旋翼ドローンレース

Jack Clark が執筆するニュースレター「Import AI」第 460 号では、サイバー空間と同様に社会も報酬ハッキングの対象となり得る点や、Anthropic から提供された RSI データ、強化学習を用いた四旋翼ドローンレースの最新動向について解説しています。

Import AI·6月8日·★★★★

今日は何も大きな出来事はありませんでした

Smol AI News は、6月5日から8日にかけての期間に12件のサブレッドと544件のツイートを調査しましたが、特に注目すべきAI関連のニュースや技術進展は見られませんでした。

Smol AI News·6月8日·★★★★

EVA-Bench Data 2.0：3 ドメイン、121 ツール、213 シナリオ（9 分読了）

TLDR AI が公開した EVA-Bench データセットの第 2 版は、3 つのドメインにわたる 121 のツールと 213 のシナリオを含む評価データを提供し、AI ツール利用能力の評価基準を強化します。

TLDR AI·6月5日·★★★★

ロシアのプロパガンダに抵抗する能力において最も優れた大規模言語モデルとは

エストニア言語研究所は、外国の敵対国が推進する危険なプロパガンダを拡散する懸念に対応するため、大規模言語モデルがロシア連邦の戦略的トピックに対して立場を取らない能力を評価する「プロパガンダ抵抗」ベンチマークを発表した。

Ars Technica AI·6月5日·★★★★

EVA-Bench Data 2.0：3 つのドメイン、121 のツール、213 のシナリオ

Hugging Face が公開した評価ベンチマーク「EVA-Bench Data 2.0」は、3 つのドメインにわたる 121 のツールと 213 のシナリオを含むデータセットであり、AI モデルの実用性を多角的に評価する基準を提供します。

Hugging Face Blog·6月4日·★★★★

信頼できる第三者評価のための共有プレイブック

OpenAI が、信頼性の高い第三者による評価を行うための共通の指針（プレイブック）を公開した。これにより、AI モデルの評価基準が標準化され、透明性が向上する見込みである。

OpenAI News·5月29日·★★★★

最新オープンアーティファクト（#21）：Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1 など。CAISI の V4 評価について

Interconnects は今月の主要なオープンモデル（Gemma 4 や DeepSeek V4 など）を紹介し、AI 標準化・イノベーションセンター（CAISI）がこれらのモデルを評価した結果、米国製最先端モデルとの格差が拡大していることを報告しました。

Interconnects·5月17日·★★★★

AI 気候モデルの相互比較プロジェクト「AIMIP」を発表

新オープンベンチマーク「AIMIP」が、AI 気候モデルが一部の歴史的指標で従来型モデルに匹敵または上回ることを示したが、長期的な温暖化傾向や未知のシナリオへの一般化には依然として課題がある。

Allen AI (AI2)·5月13日·★★★★

OpenAI の GPT-5.5 のサイバーセキュリティ能力に関する評価

英国 AI セキュリティ研究所は、GPT-5.5 が脆弱性発見において Claude Mythos と同等の能力を持つと評価し、一般利用可能である点を指摘した。

Simon Willison Blog·5月1日·★★★★

過去の時代を生きるヴィンテージチャットボットは年配の親戚のよう

AI研究者3名が、ナチスや戦争に関する記述を避けるため1930年以前のデータのみで訓練された「Talkie」と呼ばれる言語モデルを発表した。この130億パラメータのモデルは、デジタル化された英語書籍や新聞のみを学習対象としている。

The Register AI/ML·4月29日

ARFBenchの紹介：実際のインシデントに基づく時系列質問応答ベンチマーク

カーネギーメロン大学とDatadog、Amazonの研究者らが、実際の運用インシデントデータを用いた時系列データの質問応答を評価する新ベンチマーク「ARFBench」を発表した。

ML@CMU·4月28日·★★★★

本日は特に目立った出来事なし

2026年4月26日から27日にかけてのAIニュースを、12のサブレッドや544件のツイートを調査した結果、特筆すべき大きな出来事は確認されなかった。

Smol AI News·4月27日·★★★★

「大規模言語モデルは文脈を理解できるか？」

著者たちは、大規模言語モデル（LLM）の文脈理解能力を評価する新たなベンチマークを作成し、既存データセットを基に提示した。

Apple Machine Learning·4月21日·★★★★

今日のオープンとクローズドモデルのパフォーマンス格差を読む

記事は、オープンソースモデルがクローズドモデルに永続的に追従する現状を分析し、単一の数値で表される格差が実際の能力の微妙な動態を見誤らせると指摘する。主要指標であるArtificial Analysis Intelligence Indexを用いて、最先端の言語モデル能力を評価する。

Interconnects·4月21日·★★★★

カーネギーメロン大学、ICLR 2026に194論文を発表

カーネギーメロン大学の研究者らは、第14回ICLR 2026において計194本の論文を発表している。

ML@CMU·4月20日

複雑なチャートでは最高のAIモデルも性能が約半分低下、新ベンチマークが発見

RealChart2Codeベンチマークが、実世界データセットから構築された複雑な可視化で14の主要AIモデルをテストした結果、最高の独自モデルでも単純なテストに比べて性能が約半分低下することが判明した。

The Decoder·4月19日·★★★★

【AIニュース】OpenClawの二面性

Peter Steinberger氏がTEDおよびAIEカンファレンスでOpenClawの成功ストーリーを公開。一般向けには鼓舞する物語として紹介されたが、技術者向けには別の側面も示唆されている。

Latent Space·4月18日

AlibabaのオープンモデルQwen3.6、エージェントコーディングベンチマークでGoogleのGemma 4をリード

Alibabaが公開したオープンソースモデルQwen3.6-35B-A3Bは、350億パラメータのうち3つだけを同時に活性化させるが、GoogleのGemma 4-31Bよりもコーディングと推論のベンチマークで優れた性能を示した。

The Decoder·4月18日·★★★★

VAKRAの内部：エージェントの推論、ツール使用、失敗モード

OpenAIがVAKRAエージェントの推論能力、ツール使用、失敗モードを分析し、AIエージェントの信頼性向上に向けた課題を明らかにした。

Hugging Face Blog·4月15日·★★★★

Import AI 453：AIエージェントの突破、MirrorCode、そして段階的な権限剥奪に関する10の視点

Jack Clarkは2026年ビルダーバーグ会議出席に伴う短縮版newsletterを公開。AIがソフトウェアの逆エンジニアリングを行う可能性や、AIエージェントの進展、そして「段階的な権限剥奪」に関する10の視点を論じている。

Import AI·4月13日·★★★★

GLM-5.1がLMArenaコードランキングでオープンソース1位、世界3位を獲得

智谱のGLM-5.1が、AI評価プラットフォームLMArenaのコード性能ランキングでオープンソースモデル1位、全モデル中3位を達成した。同モデルは長期間タスクで8時間でのLinuxデスクトップ構築などの成果を上げ、Claude Opus 4.6に次ぐ持続作業能力を持つ数少ないモデルとなった。

智谱·4月10日·★★★★

テンセントRobotics Xラボと混元が2Bエンボディードモデルを共同開発：22項目中16項目で最高評価

テンセントのRobotics Xラボと混元が共同で、ロボット向けの2Bエンボディードモデルを発表した。このモデルは22項目の評価基準のうち16項目で最高評価を獲得し、物理世界での精密な知覚と対話能力を強化している。

腾讯混元·4月9日·★★★★

Metaが新モデル「Muse Spark」を発表、meta.aiチャットに注目ツールを追加

Metaが約1年ぶりに新モデル「Muse Spark」を発表した。APIは限定ユーザー向けのプレビュー版だが、meta.aiでログイン後に試用可能。

Simon Willison Blog·4月9日

MicrosoftのBingチームが「Harrier」埋め込みモデルをオープンソース化

MicrosoftのBingチームが、多言語MTEB v2ベンチマークで最高性能を示し、100以上の言語をサポートする埋め込みモデル「Harrier」をオープンソースとして公開した。

The Decoder·4月8日·★★★★

13言語Claude Codeベンチマークで動的言語が高速かつ低コストと判明

RubyコミッターのYusuke EndohがClaude Codeで13言語をベンチマークし、Ruby・Python・JavaScriptが最速・最安値（1実行0.36-0.39ドル）と報告。静的型言語は1.4-2.6倍高コストで、動的言語に型チェッカー追加は1.6-3.2倍遅延。

InfoQ·4月6日

Nvidiaが288GPUでMLPerf新記録を樹立、AMDとIntelは異なる戦いに注力

Nvidiaは288基のGPUでMLPerfベンチマークの新記録を達成した。一方、AMDとIntelは異なる評価指標を重視しており、直接比較は困難である。最新のMLPerfでは初めてマルチモーダルモデルと動画モデルが導入された。

The Decoder·4月2日

ADeLe: AIのタスク横断的性能予測と説明

マイクロソフトの研究チームが、AIモデルの18の核心能力を評価し、タスク要求とモデル能力を直接比較できるADeLeを開発した。この手法は新規タスクでの性能を約8%の誤差で予測できる。

Microsoft Research·4月2日·★★★★

NVIDIAの極限共同設計が新たなMLPerf推論記録を達成

NVIDIAは、ハードウェア・ソフトウェア・モデルの共同設計により、AIファクトリーの最高スループットと最低トークンコストを実現し、MLPerf推論ベンチマークで新記録を樹立した。

NVIDIA Developer Blog·4月2日·★★★★

フロンティア・レーダー #2：ベンチマークと損益計算書の間で失われるAI生産性の理由

同記事は、生成AIが多くの作業で測定可能な時間節約をもたらす一方、作業速度の向上と測定可能な経済的影響の間に隔たりがあると指摘する。検証のオーバーヘッド、限定的な指標、組織の慣性が、ベンチマークの成果をより広範な生産性向上につなげることを妨げていると分析している。

The Decoder·4月1日

ProText：長文テキストにおける（誤った）性別表現を測定するためのベンチマークデータセット

研究者らは、多様なスタイルの長文英語テキストにおける性別表現と誤った性別表現を測定するデータセット「ProText」を発表した。このデータセットは、要約や書き換えなどのテキスト変換における性別表現の問題を調査するために設計されている。

Apple Machine Learning·3月31日

AIモデルは見たことのない画像を自信満々に描写し、ベンチマークはその問題を見逃している

スタンフォード大学の研究によると、GPT-5やGemini 3 ProなどのマルチモーダルAIモデルは、画像が提供されていない場合でも詳細な画像描写や医療診断を生成する。一般的なベンチマークはこの問題を隠蔽している。

The Decoder·3月31日·★★★★

Cohere、音声認識ベンチマークでトップのオープンソースモデルをリリース

Cohereがオープンソースの音声認識モデルを発表し、ベンチマークでOpenAIのWhisperを含む全ての競合を上回った。

The Decoder·3月28日·★★★★

Anthropicのリークにより、従来モデルを「劇的に上回るテストスコア」を持つ新モデル「Claude Mythos」が明らかに

Anthropicがセキュリティミスにより、従来モデルよりもテストスコアが劇的に高い新AIモデル「Claude Mythos」を公開した。OpenAIも次世代モデルを準備中で、両社は上場前に最先端技術を競っている。

The Decoder·3月28日·★★★★

Composer 2に関する技術レポート

Composer 2が、依存関係管理ツールとして、パフォーマンス向上や新機能を提供する技術的詳細を公開した。

Cursor Blog·3月27日·★★★★

AsgardBench: 視覚に基づく対話型計画のためのベンチマーク

マイクロソフトが、視覚的フィードバックに基づいて計画を修正できるAIエージェントを評価するベンチマーク「AsgardBench」を発表した。12種類のタスクで108の制御されたタスクインスタンスを対象とする。

Microsoft Research·3月27日·★★★★

ARC-AGI-3、未訓練人間と同等のAIに200万ドル提供も、最先端モデルは全て1%未満のスコア

ARC-AGI-3は、人間が簡単に解決する対話型ゲーム環境でAIを評価する新ベンチマークを発表し、AIの最大の利点を排除したため、最先端モデルは全て1%未満のスコアしか達成できなかった。

The Decoder·3月26日·★★★★

大規模言語モデル訓練における下流タスク指標のスケーリング特性の再検討

研究チームが、大規模言語モデルの訓練予算からベンチマーク性能のスケーリングを直接モデル化する枠組みを提案し、固定トークン対パラメータ比率では単純なべき法則が複数の下流タスクの精度を正確に記述できることを発見した。

Apple Machine Learning·3月26日·★★★★

AI2の完全オープンなウェブエージェントMolmoWeb、スクリーンショットのみでウェブを操作

AI2は、スクリーンショットのみでウェブサイトを操作する完全オープンなウェブエージェント「MolmoWeb」を発表した。40億および80億パラメータの小型モデルながら、標準ベンチマークで多くの大規模専有システムを上回った。

The Decoder·3月26日·★★★★

音声エージェント評価の新フレームワーク（EVA）

研究者らが音声エージェントの性能評価のための新フレームワーク「EVA」を発表した。このフレームワークは、音声AIの能力を体系的に測定する標準化された評価手法を提供する。

Hugging Face Blog·3月24日·★★★★

中国AIモデルMiniMax M2.7、自らの開発に貢献したと報告

中国AI企業MiniMaxは、自らの開発プロセスに能動的に関与したとされるモデルM2.7を発表した。自律最適化ループにより自らの訓練プロセスを改善し、競争力のあるベンチマーク結果を示した。

The Decoder·3月21日·★★★★

SQLiteタグベンチマーク：5つのタグ付け戦略の比較

研究者がSQLiteにおけるタグ付け実装の5つの手法をマイクロベンチマークで比較した。従来の多対多テーブルが最速で、FTS5が僅差で続き、LIKEクエリによる全表スキャンは予想以上に良好だったが、JSON配列とjson_each()を使った手法は大幅に遅かった。

Simon Willison Blog·3月20日

1 / 2次へ →

#ベンチマーク のAIニュース

FFASR リーダーボードの発表：実世界における音声認識の評価基準を提示

ParallelKernelBench：最先端のLLMはまだ高速なマルチGPUカーネルを記述できない（現時点では）

MosaicLeaks：研究エージェントは秘密を守れるか？

LifeSciBench の紹介

ウェイボーの小型モデル「VibeThinker-3B」がベンチマーク論争を再燃させた理由（15 分読了）

LangSmith ベンチマークの共有について

今日は何も大きな出来事はありませんでした

FrontierCode の紹介：高品質な生産データベース基準にモデルがどれだけ対応できるかを測定するベンチマーク

LLM に業務を委ねると文書が破損する理由とは？

Import AI 460：報酬ハッキング社会、Anthropic の RSI データ、RL による四旋翼ドローンレース

今日は何も大きな出来事はありませんでした

EVA-Bench Data 2.0：3 ドメイン、121 ツール、213 シナリオ（9 分読了）

ロシアのプロパガンダに抵抗する能力において最も優れた大規模言語モデルとは

EVA-Bench Data 2.0：3 つのドメイン、121 のツール、213 のシナリオ

信頼できる第三者評価のための共有プレイブック

最新オープンアーティファクト（#21）：Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1 など。CAISI の V4 評価について

AI 気候モデルの相互比較プロジェクト「AIMIP」を発表

OpenAI の GPT-5.5 のサイバーセキュリティ能力に関する評価

過去の時代を生きるヴィンテージチャットボットは年配の親戚のよう

ARFBenchの紹介：実際のインシデントに基づく時系列質問応答ベンチマーク

本日は特に目立った出来事なし

「大規模言語モデルは文脈を理解できるか？」

今日のオープンとクローズドモデルのパフォーマンス格差を読む

カーネギーメロン大学、ICLR 2026に194論文を発表

複雑なチャートでは最高のAIモデルも性能が約半分低下、新ベンチマークが発見

【AIニュース】OpenClawの二面性

AlibabaのオープンモデルQwen3.6、エージェントコーディングベンチマークでGoogleのGemma 4をリード

VAKRAの内部：エージェントの推論、ツール使用、失敗モード

Import AI 453：AIエージェントの突破、MirrorCode、そして段階的な権限剥奪に関する10の視点

GLM-5.1がLMArenaコードランキングでオープンソース1位、世界3位を獲得

テンセントRobotics Xラボと混元が2Bエンボディードモデルを共同開発：22項目中16項目で最高評価

Metaが新モデル「Muse Spark」を発表、meta.aiチャットに注目ツールを追加

MicrosoftのBingチームが「Harrier」埋め込みモデルをオープンソース化

13言語Claude Codeベンチマークで動的言語が高速かつ低コストと判明

Nvidiaが288GPUでMLPerf新記録を樹立、AMDとIntelは異なる戦いに注力

ADeLe: AIのタスク横断的性能予測と説明

NVIDIAの極限共同設計が新たなMLPerf推論記録を達成

フロンティア・レーダー #2：ベンチマークと損益計算書の間で失われるAI生産性の理由

ProText：長文テキストにおける（誤った）性別表現を測定するためのベンチマークデータセット

AIモデルは見たことのない画像を自信満々に描写し、ベンチマークはその問題を見逃している

Cohere、音声認識ベンチマークでトップのオープンソースモデルをリリース

Anthropicのリークにより、従来モデルを「劇的に上回るテストスコア」を持つ新モデル「Claude Mythos」が明らかに

Composer 2に関する技術レポート

AsgardBench: 視覚に基づく対話型計画のためのベンチマーク

ARC-AGI-3、未訓練人間と同等のAIに200万ドル提供も、最先端モデルは全て1%未満のスコア

大規模言語モデル訓練における下流タスク指標のスケーリング特性の再検討

AI2の完全オープンなウェブエージェントMolmoWeb、スクリーンショットのみでウェブを操作

音声エージェント評価の新フレームワーク（EVA）

中国AIモデルMiniMax M2.7、自らの開発に貢献したと報告

SQLiteタグベンチマーク：5つのタグ付け戦略の比較

#ベンチマークのAIニュース