#ベンチマーク のAIニュース
95件の記事
FFASR リーダーボードの発表:実世界における音声認識の評価基準を提示
Hugging Face が、実世界の環境で音声認識モデルの性能を比較・評価するための新しいベンチマーク指標「FFASR リーダーボード」を発表した。
ParallelKernelBench:最先端のLLMはまだ高速なマルチGPUカーネルを記述できない(現時点では)
Together AIが公開したベンチマーク「ParallelKernelBench」の結果により、現在の最先端大規模言語モデルは依然として効率的なマルチGPU用カーネルコードを生成する能力に欠けていることが示された。
MosaicLeaks:研究エージェントは秘密を守れるか?
Hugging Face は、AI エージェントが機密情報を漏洩するリスクを検証する「MosaicLeaks」という評価フレームワークを発表した。
LifeSciBench の紹介
OpenAI が、生命科学分野の AI モデル評価を目的としたベンチマーク「LifeSciBench」を発表した。
ウェイボーの小型モデル「VibeThinker-3B」がベンチマーク論争を再燃させた理由(15 分読了)
中国の SNS 大手ウェイボーが開発した軽量 AI モデル「VibeThinker-3B」が、その性能に関する議論を再び引き起こしている。この小型モデルがなぜ業界でベンチマーク基準を巡る論争を巻き起こしているのか、その背景と技術的意義について解説する。
LangSmith ベンチマークの共有について
LangChain が開発した LangSmith のベンチマーク結果を公開し、AI アプリケーションの評価基準に関する情報を提供しました。
今日は何も大きな出来事はありませんでした
Smol AI News は、6月10日から11日にかけての期間に、主要なニュースや技術進展がない静かな一日であったと報告しています。
FrontierCode の紹介:高品質な生産データベース基準にモデルがどれだけ対応できるかを測定するベンチマーク
オープンソースのメンテナーらが作成した「FrontierCode」は、コードの結合可能性を初めて測定するベンチマークであり、敵対的テストや多段階レビューを含む厳格な QC パイプラインを通じて、モデルが高品質で保守可能なコードを書ける能力を示す最も強力な指標を提供します。
LLM に業務を委ねると文書が破損する理由とは?
KDnuggets は、大規模言語モデル(LLM)に文書処理を任せる際に生じるデータ破損のメカニズムと原因について分析している。
Import AI 460:報酬ハッキング社会、Anthropic の RSI データ、RL による四旋翼ドローンレース
Jack Clark が執筆するニュースレター「Import AI」第 460 号では、サイバー空間と同様に社会も報酬ハッキングの対象となり得る点や、Anthropic から提供された RSI データ、強化学習を用いた四旋翼ドローンレースの最新動向について解説しています。
今日は何も大きな出来事はありませんでした
Smol AI News は、6月5日から8日にかけての期間に12件のサブレッドと544件のツイートを調査しましたが、特に注目すべきAI関連のニュースや技術進展は見られませんでした。
EVA-Bench Data 2.0:3 ドメイン、121 ツール、213 シナリオ(9 分読了)
TLDR AI が公開した EVA-Bench データセットの第 2 版は、3 つのドメインにわたる 121 のツールと 213 のシナリオを含む評価データを提供し、AI ツール利用能力の評価基準を強化します。
ロシアのプロパガンダに抵抗する能力において最も優れた大規模言語モデルとは
エストニア言語研究所は、外国の敵対国が推進する危険なプロパガンダを拡散する懸念に対応するため、大規模言語モデルがロシア連邦の戦略的トピックに対して立場を取らない能力を評価する「プロパガンダ抵抗」ベンチマークを発表した。
EVA-Bench Data 2.0:3 つのドメイン、121 のツール、213 のシナリオ
Hugging Face が公開した評価ベンチマーク「EVA-Bench Data 2.0」は、3 つのドメインにわたる 121 のツールと 213 のシナリオを含むデータセットであり、AI モデルの実用性を多角的に評価する基準を提供します。
信頼できる第三者評価のための共有プレイブック
OpenAI が、信頼性の高い第三者による評価を行うための共通の指針(プレイブック)を公開した。これにより、AI モデルの評価基準が標準化され、透明性が向上する見込みである。
最新オープンアーティファクト(#21):Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1 など。CAISI の V4 評価について
Interconnects は今月の主要なオープンモデル(Gemma 4 や DeepSeek V4 など)を紹介し、AI 標準化・イノベーションセンター(CAISI)がこれらのモデルを評価した結果、米国製最先端モデルとの格差が拡大していることを報告しました。
AI 気候モデルの相互比較プロジェクト「AIMIP」を発表
新オープンベンチマーク「AIMIP」が、AI 気候モデルが一部の歴史的指標で従来型モデルに匹敵または上回ることを示したが、長期的な温暖化傾向や未知のシナリオへの一般化には依然として課題がある。
OpenAI の GPT-5.5 のサイバーセキュリティ能力に関する評価
英国 AI セキュリティ研究所は、GPT-5.5 が脆弱性発見において Claude Mythos と同等の能力を持つと評価し、一般利用可能である点を指摘した。
過去の時代を生きるヴィンテージチャットボットは年配の親戚のよう
AI研究者3名が、ナチスや戦争に関する記述を避けるため1930年以前のデータのみで訓練された「Talkie」と呼ばれる言語モデルを発表した。この130億パラメータのモデルは、デジタル化された英語書籍や新聞のみを学習対象としている。
ARFBenchの紹介:実際のインシデントに基づく時系列質問応答ベンチマーク
カーネギーメロン大学とDatadog、Amazonの研究者らが、実際の運用インシデントデータを用いた時系列データの質問応答を評価する新ベンチマーク「ARFBench」を発表した。
本日は特に目立った出来事なし
2026年4月26日から27日にかけてのAIニュースを、12のサブレッドや544件のツイートを調査した結果、特筆すべき大きな出来事は確認されなかった。
「大規模言語モデルは文脈を理解できるか?」
著者たちは、大規模言語モデル(LLM)の文脈理解能力を評価する新たなベンチマークを作成し、既存データセットを基に提示した。
今日のオープンとクローズドモデルのパフォーマンス格差を読む
記事は、オープンソースモデルがクローズドモデルに永続的に追従する現状を分析し、単一の数値で表される格差が実際の能力の微妙な動態を見誤らせると指摘する。主要指標であるArtificial Analysis Intelligence Indexを用いて、最先端の言語モデル能力を評価する。
カーネギーメロン大学、ICLR 2026に194論文を発表
カーネギーメロン大学の研究者らは、第14回ICLR 2026において計194本の論文を発表している。
複雑なチャートでは最高のAIモデルも性能が約半分低下、新ベンチマークが発見
RealChart2Codeベンチマークが、実世界データセットから構築された複雑な可視化で14の主要AIモデルをテストした結果、最高の独自モデルでも単純なテストに比べて性能が約半分低下することが判明した。
【AIニュース】OpenClawの二面性
Peter Steinberger氏がTEDおよびAIEカンファレンスでOpenClawの成功ストーリーを公開。一般向けには鼓舞する物語として紹介されたが、技術者向けには別の側面も示唆されている。
AlibabaのオープンモデルQwen3.6、エージェントコーディングベンチマークでGoogleのGemma 4をリード
Alibabaが公開したオープンソースモデルQwen3.6-35B-A3Bは、350億パラメータのうち3つだけを同時に活性化させるが、GoogleのGemma 4-31Bよりもコーディングと推論のベンチマークで優れた性能を示した。
VAKRAの内部:エージェントの推論、ツール使用、失敗モード
OpenAIがVAKRAエージェントの推論能力、ツール使用、失敗モードを分析し、AIエージェントの信頼性向上に向けた課題を明らかにした。
Import AI 453:AIエージェントの突破、MirrorCode、そして段階的な権限剥奪に関する10の視点
Jack Clarkは2026年ビルダーバーグ会議出席に伴う短縮版newsletterを公開。AIがソフトウェアの逆エンジニアリングを行う可能性や、AIエージェントの進展、そして「段階的な権限剥奪」に関する10の視点を論じている。
GLM-5.1がLMArenaコードランキングでオープンソース1位、世界3位を獲得
智谱のGLM-5.1が、AI評価プラットフォームLMArenaのコード性能ランキングでオープンソースモデル1位、全モデル中3位を達成した。同モデルは長期間タスクで8時間でのLinuxデスクトップ構築などの成果を上げ、Claude Opus 4.6に次ぐ持続作業能力を持つ数少ないモデルとなった。
テンセントRobotics Xラボと混元が2Bエンボディードモデルを共同開発:22項目中16項目で最高評価
テンセントのRobotics Xラボと混元が共同で、ロボット向けの2Bエンボディードモデルを発表した。このモデルは22項目の評価基準のうち16項目で最高評価を獲得し、物理世界での精密な知覚と対話能力を強化している。
Metaが新モデル「Muse Spark」を発表、meta.aiチャットに注目ツールを追加
Metaが約1年ぶりに新モデル「Muse Spark」を発表した。APIは限定ユーザー向けのプレビュー版だが、meta.aiでログイン後に試用可能。
MicrosoftのBingチームが「Harrier」埋め込みモデルをオープンソース化
MicrosoftのBingチームが、多言語MTEB v2ベンチマークで最高性能を示し、100以上の言語をサポートする埋め込みモデル「Harrier」をオープンソースとして公開した。
13言語Claude Codeベンチマークで動的言語が高速かつ低コストと判明
RubyコミッターのYusuke EndohがClaude Codeで13言語をベンチマークし、Ruby・Python・JavaScriptが最速・最安値(1実行0.36-0.39ドル)と報告。静的型言語は1.4-2.6倍高コストで、動的言語に型チェッカー追加は1.6-3.2倍遅延。
Nvidiaが288GPUでMLPerf新記録を樹立、AMDとIntelは異なる戦いに注力
Nvidiaは288基のGPUでMLPerfベンチマークの新記録を達成した。一方、AMDとIntelは異なる評価指標を重視しており、直接比較は困難である。最新のMLPerfでは初めてマルチモーダルモデルと動画モデルが導入された。
ADeLe: AIのタスク横断的性能予測と説明
マイクロソフトの研究チームが、AIモデルの18の核心能力を評価し、タスク要求とモデル能力を直接比較できるADeLeを開発した。この手法は新規タスクでの性能を約8%の誤差で予測できる。
NVIDIAの極限共同設計が新たなMLPerf推論記録を達成
NVIDIAは、ハードウェア・ソフトウェア・モデルの共同設計により、AIファクトリーの最高スループットと最低トークンコストを実現し、MLPerf推論ベンチマークで新記録を樹立した。
フロンティア・レーダー #2:ベンチマークと損益計算書の間で失われるAI生産性の理由
同記事は、生成AIが多くの作業で測定可能な時間節約をもたらす一方、作業速度の向上と測定可能な経済的影響の間に隔たりがあると指摘する。検証のオーバーヘッド、限定的な指標、組織の慣性が、ベンチマークの成果をより広範な生産性向上につなげることを妨げていると分析している。
ProText:長文テキストにおける(誤った)性別表現を測定するためのベンチマークデータセット
研究者らは、多様なスタイルの長文英語テキストにおける性別表現と誤った性別表現を測定するデータセット「ProText」を発表した。このデータセットは、要約や書き換えなどのテキスト変換における性別表現の問題を調査するために設計されている。
AIモデルは見たことのない画像を自信満々に描写し、ベンチマークはその問題を見逃している
スタンフォード大学の研究によると、GPT-5やGemini 3 ProなどのマルチモーダルAIモデルは、画像が提供されていない場合でも詳細な画像描写や医療診断を生成する。一般的なベンチマークはこの問題を隠蔽している。
Cohere、音声認識ベンチマークでトップのオープンソースモデルをリリース
Cohereがオープンソースの音声認識モデルを発表し、ベンチマークでOpenAIのWhisperを含む全ての競合を上回った。
Anthropicのリークにより、従来モデルを「劇的に上回るテストスコア」を持つ新モデル「Claude Mythos」が明らかに
Anthropicがセキュリティミスにより、従来モデルよりもテストスコアが劇的に高い新AIモデル「Claude Mythos」を公開した。OpenAIも次世代モデルを準備中で、両社は上場前に最先端技術を競っている。
Composer 2に関する技術レポート
Composer 2が、依存関係管理ツールとして、パフォーマンス向上や新機能を提供する技術的詳細を公開した。
AsgardBench: 視覚に基づく対話型計画のためのベンチマーク
マイクロソフトが、視覚的フィードバックに基づいて計画を修正できるAIエージェントを評価するベンチマーク「AsgardBench」を発表した。12種類のタスクで108の制御されたタスクインスタンスを対象とする。
ARC-AGI-3、未訓練人間と同等のAIに200万ドル提供も、最先端モデルは全て1%未満のスコア
ARC-AGI-3は、人間が簡単に解決する対話型ゲーム環境でAIを評価する新ベンチマークを発表し、AIの最大の利点を排除したため、最先端モデルは全て1%未満のスコアしか達成できなかった。
大規模言語モデル訓練における下流タスク指標のスケーリング特性の再検討
研究チームが、大規模言語モデルの訓練予算からベンチマーク性能のスケーリングを直接モデル化する枠組みを提案し、固定トークン対パラメータ比率では単純なべき法則が複数の下流タスクの精度を正確に記述できることを発見した。
AI2の完全オープンなウェブエージェントMolmoWeb、スクリーンショットのみでウェブを操作
AI2は、スクリーンショットのみでウェブサイトを操作する完全オープンなウェブエージェント「MolmoWeb」を発表した。40億および80億パラメータの小型モデルながら、標準ベンチマークで多くの大規模専有システムを上回った。
音声エージェント評価の新フレームワーク(EVA)
研究者らが音声エージェントの性能評価のための新フレームワーク「EVA」を発表した。このフレームワークは、音声AIの能力を体系的に測定する標準化された評価手法を提供する。
中国AIモデルMiniMax M2.7、自らの開発に貢献したと報告
中国AI企業MiniMaxは、自らの開発プロセスに能動的に関与したとされるモデルM2.7を発表した。自律最適化ループにより自らの訓練プロセスを改善し、競争力のあるベンチマーク結果を示した。
SQLiteタグベンチマーク:5つのタグ付け戦略の比較
研究者がSQLiteにおけるタグ付け実装の5つの手法をマイクロベンチマークで比較した。従来の多対多テーブルが最速で、FTS5が僅差で続き、LIKEクエリによる全表スキャンは予想以上に良好だったが、JSON配列とjson_each()を使った手法は大幅に遅かった。