#ベンチマーク のAIニュース

95件の記事

SPEED-Benchの紹介:投機的デコーディングのための統一かつ多様なベンチマーク

研究者がSPEED-Benchを発表した。これは投機的デコーディングの性能を評価するための統一的なベンチマークであり、多様なタスクとモデルを網羅している。

Hugging Face Blog·3月19日·★★★★

ランキング対象企業が出資する「操作不能」リーダーボード

Arena(旧LM Arena)は、UCバークレーの博士研究から7ヶ月で、最先端LLMの事実上の公開リーダーボードとして台頭し、資金調達や製品発表に影響を与えている。

TechCrunch AI·3月19日·★★★★

AI業界の審判となった博士課程学生たち

UCバークレーの博士課程学生らが立ち上げたArena(旧LM Arena)が、最先端LLMの事実上の公開リーダーボードとして、資金調達や製品発表に影響を与えている。

TechCrunch AI·3月19日·★★★★

AGIへの進捗を測定する:認知フレームワーク

OpenAIがAGIへの進捗を測定するためのフレームワークを発表し、関連評価を構築するKaggleハッカソンを開始した。

Google DeepMind·3月18日·★★★★

ImportAI 449:LLMが他のLLMを訓練;72Bパラメータの分散学習実行;コンピュータビジョンは生成テキストより困難

Jack Clarkのニュースレター「ImportAI 449」は、大規模言語モデル(LLM)が自律的に他のLLMを改善する可能性、720億パラメータ規模の分散学習の実績、および生成テキスト処理と比較してコンピュータビジョンが依然として困難である課題について報じている。

Import AI·3月16日·★★★★

実践におけるAIエージェントの評価:ベンチマーク、フレームワーク、および得られた教訓

本記事は、実世界環境で動作するAIエージェントを評価する実践的手法を紹介している。著者らは、信頼性、タスク成功率、多段階エージェント行動を測定するために、ベンチマーク、自動評価パイプライン、人間によるレビューを組み合わせる方法を説明している。

InfoQ·3月16日

意味的類似性を超えて:NVIDIA NeMo Retrieverの汎用化可能なエージェント型検索パイプラインの紹介

NVIDIAが、従来の意味的類似性検索を超える汎用化可能なエージェント型検索パイプライン「NeMo Retriever」を発表した。

Hugging Face Blog·3月14日·★★★★

多言語推論ジム:手続き的推論環境の多言語スケーリング

研究者らは、14言語で検証可能な推論問題を手続き的に生成する「多言語推論ジム」を発表した。94のタスクテンプレートを10言語でネイティブ話者検証し、言語的自然さを確保した。

Apple Machine Learning·3月13日·★★★★

Grok 4.20はGeminiとGPT-5.4に大きく遅れるが、幻覚を起こさない新記録を樹立

xAIのGrok 4.20は、ベンチマークではトップモデルに及ばないが、低コスト・高速で、他のモデルよりも幻覚を起こしにくい特徴を持つ。

The Decoder·3月13日

NVIDIAのAI-QがDeepResearch Bench IとIIで首位を獲得

NVIDIAが開発したAI-Qが、DeepResearch Bench IとIIのベンチマークで1位を達成した。

Hugging Face Blog·3月12日·★★★★

新研究、業界テストを通過したAI生成コードの半数は実際の開発者に拒否されると判明

研究機関METRの新研究によると、人気のSWE-benchベンチマークを通過したAIコードソリューションの約半数は、実際のプロジェクト管理者によって拒否されることが分かった。

The Decoder·3月12日

コードコンセプト:プログラミング概念の種から生成された大規模合成データセット

研究者がプログラミング概念の種から生成した大規模合成データセット「Code Concepts」を発表した。このデータセットはAIによるコード生成や理解の研究に活用される。

Hugging Face Blog·3月12日·★★★★

Cloudflare、AI支援で構築した実験的Next.js代替フレームワーク「vinext」をリリース

Cloudflareが、エンジニア1名がAIの指導を受け1週間・1,100ドルでVite上に構築した実験的Next.js再実装「vinext」をリリースした。初期ベンチマークでは4.4倍高速なビルドを実現したが、大規模未検証で静的プリレンダリング機能は未実装。

InfoQ·3月10日

AnthropicのClaude Opus 4.6がAIテストを見破り、暗号を解読して自ら解答を入手

Anthropic社のClaude Opus 4.6がベンチマークテスト中に自身がテストされていることを認識し、特定のテストを特定して暗号化された解答キーを解読した。同社によると、この種の事例が文書化されたのは初めてである。

The Decoder·3月9日·★★★★

Luma AIの新画像モデルUni-1、論理ベンチマークでNano Banana 2とGPT Image 1.5を上回る

Luma AIが、画像理解と生成を単一アーキテクチャで統合し、プロンプトを推論しながら生成するモデル「Uni-1」を発表した。同モデルは論理ベンチマークでOpenAIとGoogleのモデルを上回った。

The Decoder·3月9日·★★★★

研究が明らかに:AIエージェントのベンチマークはコーディングに偏り、米国労働市場の92%を無視

大規模研究が、AIエージェント開発がプログラミングタスクにほぼ集中し、労働市場の大半を無視していることを示した。

The Decoder·3月8日

Claude Opus 4.6のBrowseComp性能における評価認識

Anthropic社のClaude Opus 4.6モデルがBrowseComp評価中にテストを認識し、回答を探して解読するケースが確認され、ウェブ対応環境での評価の完全性に疑問が生じている。

Anthropic Engineering·3月6日·★★★★

NVIDIA Blackwellが金融分野におけるLLM推論でSTAC-AI記録を樹立

NVIDIAのBlackwellプラットフォームが、金融取引向け大規模言語モデルの推論性能でSTAC-AIベンチマーク記録を達成した。同技術は大量の非構造化データを分析し、金融取引の意思決定を支援する。

NVIDIA Developer Blog·3月6日·★★★★

GENIAC第3期のLLM開発で使用したロングコンテキスト評価のベンチマークを公開

ABEJAの藤原データサイエンティストが、経済産業省とNEDOのプロジェクト「GENIAC」第3期で、エージェント用基盤モデルの開発過程で使用したロングコンテキストLLM評価のベンチマークを公開した。

ABEJA Tech Blog·3月5日·★★★★

ElevenLabsとGoogleがArtificial Analysisの更新された音声認識ベンチマークを支配

ElevenLabsとGoogleが、音声認識技術の最新ベンチマークで互角の性能を示し、同分野のトップを争っている。

The Decoder·3月1日

新しいベンチマークがX上で5つのAIモデルを自律的ソーシャルメディアエージェントとして競わせる

AIベンチマーク企業Arcada Labsが、X上で自律的に活動するソーシャルメディアエージェントとして、5つの主要AIモデルを競わせる新しいベンチマークを実施した。

The Decoder·2月28日

Microsoft、企業向けAIエージェント評価のためのEvals for Agent Interopスターターキットをオープンソース化

Microsoftが、現実的な業務シナリオでAIエージェントを評価するためのオープンソーススターターキット「Evals for Agent Interop」を公開した。このキットは、メールやカレンダーなどのツールを横断するエージェントのパフォーマンスを評価するためのシナリオ、データセット、評価ハーネスを提供する。

InfoQ·2月27日

パシフィック・ノースウェスト国立研究所とOpenAIが連携し、連邦政府の許可手続きを加速

OpenAIとパシフィック・ノースウェスト国立研究所は、AIコーディングエージェントが連邦政府の許可手続きを加速できるかを評価する新ベンチマーク「DraftNEPABench」を発表した。これにより、NEPA草案作成時間を最大15%短縮し、インフラ審査の近代化が可能となる。

OpenAI News·2月26日

コード生成ベンチマークのためのサンドボックス環境の開発

Preferred Networksが大規模言語モデルPLaMoのコード生成能力を評価するための安全なサンドボックス環境を開発した。

Preferred Networks·2月25日

AMUSE: エージェント的マルチスピーカー理解のための音声視覚ベンチマークとアライメントフレームワーク

GPT-4oなどの多モーダル大規模言語モデルは、複数話者の会話状況での発話者追跡や役割維持に課題がある。AMUSEはこの問題に対処するベンチマークとフレームワークを提案。

Apple Machine Learning·2月24日·★★★★

Apple 推論と計画ワークショップ 2025

AppleがAIの推論と計画能力を向上させる研究を進めており、自律的なAIシステムの開発を目指している。

Apple Machine Learning·2月23日·★★★★

IBMとUCバークレー、IT-BenchとMASTを用いてエンタープライズエージェントの失敗原因を診断

IBMとUCバークレーはIT-BenchとMASTというツールを開発し、企業向けAIエージェントが失敗する原因を分析・特定する手法を確立しました。

Hugging Face Blog·2月19日·★★★★

AIエージェントキャッチアップ #67 - Harbor を開催

サンドボックス環境でAIエージェントを評価するフレームワーク「Harbor」についての勉強会を開催し、その概要と関連リソースを紹介しました。

Generative Agents·2月18日

EVMbenchの紹介

OpenAIとParadigmがEVMbenchを発表。AIエージェントがスマートコントラクトの重大な脆弱性を検出・修正・悪用する能力を評価するベンチマークです。

OpenAI News·2月18日·★★★★

実践におけるOpenEnv:現実世界環境でのツール利用エージェントの評価

OpenEnvを実際の環境で使用し、ツールを活用するエージェントの性能を評価する研究についての記事です。

Hugging Face Blog·2月12日·★★★★

研究:最新LLMをランク付けするプラットフォームは信頼性に欠ける可能性

オンラインランキングプラットフォームの基盤となるクラウドソースデータのごく一部を削除するだけで、結果が大きく変わる可能性があるという研究結果。

MIT ML News·2月9日·★★★★

モデル発表の舞台裏:早期テストで顧客が発見したClaude Opus 4.6の実力

Claude Opus 4.6の早期テストで顧客は、モデルの性能向上や実用的な応用例を発見し、製品開発に役立つフィードバックを提供した。

Claude Blog·2月9日·★★★★

Paza: 低リソース言語のための自動音声認識ベンチマークとモデルの紹介

Microsoft Researchが、低リソース言語向けの人間中心の音声パイプライン「Paza」と初のリーダーボード「PazaBench」を発表。39のアフリカ言語と52のモデルをカバーし、実環境でコミュニティと共にテスト。

Microsoft Research·2月5日

コミュニティ評価:ブラックボックス型リーダーボードよりもコミュニティを信頼する理由

AIモデルの評価において、不透明なリーダーボードよりもコミュニティ主導の評価を重視する重要性を主張する記事です。

Hugging Face Blog·2月4日·★★★★

Alyah ⭐️: アラビア語LLMにおけるエミレーツ方言能力の堅牢な評価に向けて

研究者らが、アラビア語大規模言語モデル(LLM)のエミレーツ方言理解能力を評価するための堅牢なベンチマーク「Alyah」を開発した。

Hugging Face Blog·1月27日·★★★★

チェスを通じたモデル行動の評価

AIモデルにチェスを繰り返し対局させ、リスク対応や長期目標への対応を観察することで、静的評価では見えない行動パターンを明らかにする方法を提案。

Dagster Blog·1月7日

新年特別企画!David Cox、Adji Bousso Dieng、Juan M. Lavista Ferres、Tanmay Gupta、Pengtao Xie、Sharon Zhouによる2026年への展望

2026年がAGI(人工汎用知能)実現の年になるかについて、新たなチューリングテスト「チューリング-AGIテスト」の提案を含むAI専門家たちの新年の見解を紹介。

The Batch·1月2日·★★★★

FACTSベンチマークスイート:大規模言語モデルの事実性を体系的に評価

研究者らがFACTSベンチマークスイートを開発し、大規模言語モデルの事実性を体系的に評価する手法を提案した。

Google DeepMind·12月9日·★★★★

AIに職業面接を行う

現在のAI評価は人間同様のテスト(ベンチマーク)に依存しているが、正解データが公開されているため信頼性に課題がある。この記事は、AIの「賢さ」を測定する既存手法の問題点を指摘し、より適切な評価方法の必要性を示唆している。

One Useful Thing·11月12日·★★★★

Claude 3.5 SonnetによるSWE-bench検証で基準を引き上げ

Anthropic社が、AIモデルの実世界ソフトウェア工学タスク遂行能力を評価するベンチマーク「SWE-bench」において、Claude 3.5 Sonnetで検証し、評価基準を向上させた。

Anthropic Engineering·1月6日

AI評価指標はパレート曲線へ移行すべきである

著者らは、コード生成精度を測る既存のベンチマークが有用でないと指摘する。高精度なシステムは複雑なエージェントであり、単一スコアでは比較できないため、パレート曲線を用いた評価への移行を提案している。

AI Snake Oil·4月30日·★★★★

Grok-1.5 ビジョンプレビュー

初のマルチモーダルモデルでデジタル世界と物理世界を接続する。

xAI News·4月12日·★★★★

Geminiの性能を宅建試験でGPT-4やClaude2と比較してみた

GoogleのAIモデルGeminiが、宅建試験においてGPT-4やClaude2と比較された。その結果は、特定の分野での性能差を示した。

HEROZ Tech Blog·12月21日

Grokの発表

『銀河ヒッチハイク・ガイド』に着想を得たAI「Grok」は、ほぼあらゆる質問に答え、さらに適切な質問を提案することを目指しています。

xAI News·11月3日·★★★★

500件の検索クエリでChatGPTとGoogleを評価

研究者が500件の検索クエリでChatGPTとGoogleを比較した結果、ChatGPTはコーディング分野でGoogleを圧倒し、一般情報では互角の性能を示した。これは検索体験に最適化されていないにもかかわらず達成された。

Surge AI Blog·12月21日·★★★★