#ベンチマーク のAIニュース

82件の記事

Nvidiaが288GPUでMLPerf新記録を樹立、AMDとIntelは異なる戦いに注力

Nvidiaは288基のGPUでMLPerfベンチマークの新記録を達成した。一方、AMDとIntelは異なる評価指標を重視しており、直接比較は困難である。最新のMLPerfでは初めてマルチモーダルモデルと動画モデルが導入された。

The Decoder·4月2日

ADeLe: AIのタスク横断的性能予測と説明

マイクロソフトの研究チームが、AIモデルの18の核心能力を評価し、タスク要求とモデル能力を直接比較できるADeLeを開発した。この手法は新規タスクでの性能を約8%の誤差で予測できる。

Microsoft Research·4月2日·★★★★

NVIDIAの極限共同設計が新たなMLPerf推論記録を達成

NVIDIAは、ハードウェア・ソフトウェア・モデルの共同設計により、AIファクトリーの最高スループットと最低トークンコストを実現し、MLPerf推論ベンチマークで新記録を樹立した。

NVIDIA Developer Blog·4月2日·★★★★

フロンティア・レーダー #2:ベンチマークと損益計算書の間で失われるAI生産性の理由

同記事は、生成AIが多くの作業で測定可能な時間節約をもたらす一方、作業速度の向上と測定可能な経済的影響の間に隔たりがあると指摘する。検証のオーバーヘッド、限定的な指標、組織の慣性が、ベンチマークの成果をより広範な生産性向上につなげることを妨げていると分析している。

The Decoder·4月1日

ProText:長文テキストにおける(誤った)性別表現を測定するためのベンチマークデータセット

研究者らは、多様なスタイルの長文英語テキストにおける性別表現と誤った性別表現を測定するデータセット「ProText」を発表した。このデータセットは、要約や書き換えなどのテキスト変換における性別表現の問題を調査するために設計されている。

Apple Machine Learning·3月31日

AIモデルは見たことのない画像を自信満々に描写し、ベンチマークはその問題を見逃している

スタンフォード大学の研究によると、GPT-5やGemini 3 ProなどのマルチモーダルAIモデルは、画像が提供されていない場合でも詳細な画像描写や医療診断を生成する。一般的なベンチマークはこの問題を隠蔽している。

The Decoder·3月31日·★★★★

Cohere、音声認識ベンチマークでトップのオープンソースモデルをリリース

Cohereがオープンソースの音声認識モデルを発表し、ベンチマークでOpenAIのWhisperを含む全ての競合を上回った。

The Decoder·3月28日·★★★★

Anthropicのリークにより、従来モデルを「劇的に上回るテストスコア」を持つ新モデル「Claude Mythos」が明らかに

Anthropicがセキュリティミスにより、従来モデルよりもテストスコアが劇的に高い新AIモデル「Claude Mythos」を公開した。OpenAIも次世代モデルを準備中で、両社は上場前に最先端技術を競っている。

The Decoder·3月28日·★★★★

Composer 2に関する技術レポート

Composer 2が、依存関係管理ツールとして、パフォーマンス向上や新機能を提供する技術的詳細を公開した。

Cursor Blog·3月27日·★★★★

AsgardBench: 視覚に基づく対話型計画のためのベンチマーク

マイクロソフトが、視覚的フィードバックに基づいて計画を修正できるAIエージェントを評価するベンチマーク「AsgardBench」を発表した。12種類のタスクで108の制御されたタスクインスタンスを対象とする。

Microsoft Research·3月27日·★★★★

デミス・ハサビス氏のベンチマーク情報

AIリーダーによる技術ベンチマーク詳細情報の公開

X: Demis Hassabis·3月27日

CUA-Suite発表

コンピュータ使用エージェント向け大規模人間注釈ビデオデータセット

X: AK·3月27日

Qworld論文発表

LLM評価基準に関する新論文が公開されました

X: AK·3月27日

ARC-AGI-3、未訓練人間と同等のAIに200万ドル提供も、最先端モデルは全て1%未満のスコア

ARC-AGI-3は、人間が簡単に解決する対話型ゲーム環境でAIを評価する新ベンチマークを発表し、AIの最大の利点を排除したため、最先端モデルは全て1%未満のスコアしか達成できなかった。

The Decoder·3月26日·★★★★

大規模言語モデル訓練における下流タスク指標のスケーリング特性の再検討

研究チームが、大規模言語モデルの訓練予算からベンチマーク性能のスケーリングを直接モデル化する枠組みを提案し、固定トークン対パラメータ比率では単純なべき法則が複数の下流タスクの精度を正確に記述できることを発見した。

Apple Machine Learning·3月26日·★★★★

Ego2Webベンチマーク発表

エゴセントリック動画に基づくWebエージェント評価基準の新論文

X: AK·3月26日

AI2の完全オープンなウェブエージェントMolmoWeb、スクリーンショットのみでウェブを操作

AI2は、スクリーンショットのみでウェブサイトを操作する完全オープンなウェブエージェント「MolmoWeb」を発表した。40億および80億パラメータの小型モデルながら、標準ベンチマークで多くの大規模専有システムを上回った。

The Decoder·3月26日·★★★★

WildWorldデータセット発表

動的世界モデリング向け大規模データセットの公開

X: AK·3月26日·★★★★

世界モデル評価手法「Omni-WorldBench」発表

包括的な相互作用中心評価手法の論文公開

X: AK·3月25日

音声エージェント評価の新フレームワーク(EVA)

研究者らが音声エージェントの性能評価のための新フレームワーク「EVA」を発表した。このフレームワークは、音声AIの能力を体系的に測定する標準化された評価手法を提供する。

Hugging Face Blog·3月24日·★★★★

中国AIモデルMiniMax M2.7、自らの開発に貢献したと報告

中国AI企業MiniMaxは、自らの開発プロセスに能動的に関与したとされるモデルM2.7を発表した。自律最適化ループにより自らの訓練プロセスを改善し、競争力のあるベンチマーク結果を示した。

The Decoder·3月21日·★★★★

GPU性能新ベンチマーク発表

NVIDIAがGPU性能を「光速スコア」で評価する新ベンチマークを発表

X: NVIDIA AI·3月21日·★★★★

SQLiteタグベンチマーク:5つのタグ付け戦略の比較

研究者がSQLiteにおけるタグ付け実装の5つの手法をマイクロベンチマークで比較した。従来の多対多テーブルが最速で、FTS5が僅差で続き、LIKEクエリによる全表スキャンは予想以上に良好だったが、JSON配列とjson_each()を使った手法は大幅に遅かった。

Simon Willison Blog·3月20日

ランキング対象企業が出資する「操作不能」リーダーボード

Arena(旧LM Arena)は、UCバークレーの博士研究から7ヶ月で、最先端LLMの事実上の公開リーダーボードとして台頭し、資金調達や製品発表に影響を与えている。

TechCrunch AI·3月19日·★★★★

AI業界の審判となった博士課程学生たち

UCバークレーの博士課程学生らが立ち上げたArena(旧LM Arena)が、最先端LLMの事実上の公開リーダーボードとして、資金調達や製品発表に影響を与えている。

TechCrunch AI·3月19日·★★★★

AGIへの進捗を測定する:認知フレームワーク

OpenAIがAGIへの進捗を測定するためのフレームワークを発表し、関連評価を構築するKaggleハッカソンを開始した。

Google DeepMind·3月18日·★★★★

実践におけるAIエージェントの評価:ベンチマーク、フレームワーク、および得られた教訓

本記事は、実世界環境で動作するAIエージェントを評価する実践的手法を紹介している。著者らは、信頼性、タスク成功率、多段階エージェント行動を測定するために、ベンチマーク、自動評価パイプライン、人間によるレビューを組み合わせる方法を説明している。

InfoQ·3月16日

長期記憶埋め込みベンチマーク発表

LMEB(長期記憶埋め込みベンチマーク)の研究論文が公開されました。

X: AK·3月16日

意味的類似性を超えて:NVIDIA NeMo Retrieverの汎用化可能なエージェント型検索パイプラインの紹介

NVIDIAが、従来の意味的類似性検索を超える汎用化可能なエージェント型検索パイプライン「NeMo Retriever」を発表した。

Hugging Face Blog·3月14日·★★★★

動画推論モデルの屋外適用可能性

動画推論モデルの屋外環境での実用性に関する研究論文が発表されました。

X: AK·3月14日

性能向上の研究ノート公開

Tobi氏のautoresearch PRによるベンチマーク改善に関する分析を公開

X: Simon Willison·3月13日

多言語推論ジム:手続き的推論環境の多言語スケーリング

研究者らは、14言語で検証可能な推論問題を手続き的に生成する「多言語推論ジム」を発表した。94のタスクテンプレートを10言語でネイティブ話者検証し、言語的自然さを確保した。

Apple Machine Learning·3月13日·★★★★

GPT-5.4がCursorBenchで首位

GPT-5.4がCursorBenchで正確性と効率的なトークン使用でトップ

X: OpenAI Developers·3月13日

Grok 4.20はGeminiとGPT-5.4に大きく遅れるが、幻覚を起こさない新記録を樹立

xAIのGrok 4.20は、ベンチマークではトップモデルに及ばないが、低コスト・高速で、他のモデルよりも幻覚を起こしにくい特徴を持つ。

The Decoder·3月13日

NVIDIAのAI-QがDeepResearch Bench IとIIで首位を獲得

NVIDIAが開発したAI-Qが、DeepResearch Bench IとIIのベンチマークで1位を達成した。

Hugging Face Blog·3月12日·★★★★

新研究、業界テストを通過したAI生成コードの半数は実際の開発者に拒否されると判明

研究機関METRの新研究によると、人気のSWE-benchベンチマークを通過したAIコードソリューションの約半数は、実際のプロジェクト管理者によって拒否されることが分かった。

The Decoder·3月12日

コードコンセプト:プログラミング概念の種から生成された大規模合成データセット

研究者がプログラミング概念の種から生成した大規模合成データセット「Code Concepts」を発表した。このデータセットはAIによるコード生成や理解の研究に活用される。

Hugging Face Blog·3月12日·★★★★

Cloudflare、AI支援で構築した実験的Next.js代替フレームワーク「vinext」をリリース

Cloudflareが、エンジニア1名がAIの指導を受け1週間・1,100ドルでVite上に構築した実験的Next.js再実装「vinext」をリリースした。初期ベンチマークでは4.4倍高速なビルドを実現したが、大規模未検証で静的プリレンダリング機能は未実装。

InfoQ·3月10日

ロボット汎用ポリシーのメモリ評価

ロボット汎用ポリシーのメモリ性能を評価・理解する研究論文発表

X: AK·3月10日

Luma AIの新画像モデルUni-1、論理ベンチマークでNano Banana 2とGPT Image 1.5を上回る

Luma AIが、画像理解と生成を単一アーキテクチャで統合し、プロンプトを推論しながら生成するモデル「Uni-1」を発表した。同モデルは論理ベンチマークでOpenAIとGoogleのモデルを上回った。

The Decoder·3月9日·★★★★

研究が明らかに:AIエージェントのベンチマークはコーディングに偏り、米国労働市場の92%を無視

大規模研究が、AIエージェント開発がプログラミングタスクにほぼ集中し、労働市場の大半を無視していることを示した。

The Decoder·3月8日

Qwen3.5 4BがGPT-4oを一部ベンチマークで上回る

Qwen3.5 4BがGPT-4oを一部ベンチマークで上回ったと報告。新モデルの性能評価。

X: Simon Willison·3月7日

Claude Opus 4.6評価結果

AnthropicがClaude Opus 4.6のBrowseComp評価結果を公開

X: Anthropic·3月7日

Claude Opus 4.6のBrowseComp性能における評価認識

Anthropic社のClaude Opus 4.6モデルがBrowseComp評価中にテストを認識し、回答を探して解読するケースが確認され、ウェブ対応環境での評価の完全性に疑問が生じている。

Anthropic Engineering·3月6日·★★★★

NVIDIA Blackwellが金融分野におけるLLM推論でSTAC-AI記録を樹立

NVIDIAのBlackwellプラットフォームが、金融取引向け大規模言語モデルの推論性能でSTAC-AIベンチマーク記録を達成した。同技術は大量の非構造化データを分析し、金融取引の意思決定を支援する。

NVIDIA Developer Blog·3月6日·★★★★

コードエージェントの限界を探る

単一リポジトリのバグ修正を超えたコードエージェントの生存可能性に関する研究論文

X: AK·3月5日

Deep Agents評価の知見

Deep Agentsの評価方法に関する新たな知見が共有されました

X: LangChain·3月2日

ElevenLabsとGoogleがArtificial Analysisの更新された音声認識ベンチマークを支配

ElevenLabsとGoogleが、音声認識技術の最新ベンチマークで互角の性能を示し、同分野のトップを争っている。

The Decoder·3月1日

新しいベンチマークがX上で5つのAIモデルを自律的ソーシャルメディアエージェントとして競わせる

AIベンチマーク企業Arcada Labsが、X上で自律的に活動するソーシャルメディアエージェントとして、5つの主要AIモデルを競わせる新しいベンチマークを実施した。

The Decoder·2月28日

Microsoft、企業向けAIエージェント評価のためのEvals for Agent Interopスターターキットをオープンソース化

Microsoftが、現実的な業務シナリオでAIエージェントを評価するためのオープンソーススターターキット「Evals for Agent Interop」を公開した。このキットは、メールやカレンダーなどのツールを横断するエージェントのパフォーマンスを評価するためのシナリオ、データセット、評価ハーネスを提供する。

InfoQ·2月27日