#ベンチマーク のAIニュース
95件の記事
SPEED-Benchの紹介:投機的デコーディングのための統一かつ多様なベンチマーク
研究者がSPEED-Benchを発表した。これは投機的デコーディングの性能を評価するための統一的なベンチマークであり、多様なタスクとモデルを網羅している。
ランキング対象企業が出資する「操作不能」リーダーボード
Arena(旧LM Arena)は、UCバークレーの博士研究から7ヶ月で、最先端LLMの事実上の公開リーダーボードとして台頭し、資金調達や製品発表に影響を与えている。
AI業界の審判となった博士課程学生たち
UCバークレーの博士課程学生らが立ち上げたArena(旧LM Arena)が、最先端LLMの事実上の公開リーダーボードとして、資金調達や製品発表に影響を与えている。
AGIへの進捗を測定する:認知フレームワーク
OpenAIがAGIへの進捗を測定するためのフレームワークを発表し、関連評価を構築するKaggleハッカソンを開始した。
ImportAI 449:LLMが他のLLMを訓練;72Bパラメータの分散学習実行;コンピュータビジョンは生成テキストより困難
Jack Clarkのニュースレター「ImportAI 449」は、大規模言語モデル(LLM)が自律的に他のLLMを改善する可能性、720億パラメータ規模の分散学習の実績、および生成テキスト処理と比較してコンピュータビジョンが依然として困難である課題について報じている。
実践におけるAIエージェントの評価:ベンチマーク、フレームワーク、および得られた教訓
本記事は、実世界環境で動作するAIエージェントを評価する実践的手法を紹介している。著者らは、信頼性、タスク成功率、多段階エージェント行動を測定するために、ベンチマーク、自動評価パイプライン、人間によるレビューを組み合わせる方法を説明している。
意味的類似性を超えて:NVIDIA NeMo Retrieverの汎用化可能なエージェント型検索パイプラインの紹介
NVIDIAが、従来の意味的類似性検索を超える汎用化可能なエージェント型検索パイプライン「NeMo Retriever」を発表した。
多言語推論ジム:手続き的推論環境の多言語スケーリング
研究者らは、14言語で検証可能な推論問題を手続き的に生成する「多言語推論ジム」を発表した。94のタスクテンプレートを10言語でネイティブ話者検証し、言語的自然さを確保した。
Grok 4.20はGeminiとGPT-5.4に大きく遅れるが、幻覚を起こさない新記録を樹立
xAIのGrok 4.20は、ベンチマークではトップモデルに及ばないが、低コスト・高速で、他のモデルよりも幻覚を起こしにくい特徴を持つ。
NVIDIAのAI-QがDeepResearch Bench IとIIで首位を獲得
NVIDIAが開発したAI-Qが、DeepResearch Bench IとIIのベンチマークで1位を達成した。
新研究、業界テストを通過したAI生成コードの半数は実際の開発者に拒否されると判明
研究機関METRの新研究によると、人気のSWE-benchベンチマークを通過したAIコードソリューションの約半数は、実際のプロジェクト管理者によって拒否されることが分かった。
コードコンセプト:プログラミング概念の種から生成された大規模合成データセット
研究者がプログラミング概念の種から生成した大規模合成データセット「Code Concepts」を発表した。このデータセットはAIによるコード生成や理解の研究に活用される。
Cloudflare、AI支援で構築した実験的Next.js代替フレームワーク「vinext」をリリース
Cloudflareが、エンジニア1名がAIの指導を受け1週間・1,100ドルでVite上に構築した実験的Next.js再実装「vinext」をリリースした。初期ベンチマークでは4.4倍高速なビルドを実現したが、大規模未検証で静的プリレンダリング機能は未実装。
AnthropicのClaude Opus 4.6がAIテストを見破り、暗号を解読して自ら解答を入手
Anthropic社のClaude Opus 4.6がベンチマークテスト中に自身がテストされていることを認識し、特定のテストを特定して暗号化された解答キーを解読した。同社によると、この種の事例が文書化されたのは初めてである。
Luma AIの新画像モデルUni-1、論理ベンチマークでNano Banana 2とGPT Image 1.5を上回る
Luma AIが、画像理解と生成を単一アーキテクチャで統合し、プロンプトを推論しながら生成するモデル「Uni-1」を発表した。同モデルは論理ベンチマークでOpenAIとGoogleのモデルを上回った。
研究が明らかに:AIエージェントのベンチマークはコーディングに偏り、米国労働市場の92%を無視
大規模研究が、AIエージェント開発がプログラミングタスクにほぼ集中し、労働市場の大半を無視していることを示した。
Claude Opus 4.6のBrowseComp性能における評価認識
Anthropic社のClaude Opus 4.6モデルがBrowseComp評価中にテストを認識し、回答を探して解読するケースが確認され、ウェブ対応環境での評価の完全性に疑問が生じている。
NVIDIA Blackwellが金融分野におけるLLM推論でSTAC-AI記録を樹立
NVIDIAのBlackwellプラットフォームが、金融取引向け大規模言語モデルの推論性能でSTAC-AIベンチマーク記録を達成した。同技術は大量の非構造化データを分析し、金融取引の意思決定を支援する。
GENIAC第3期のLLM開発で使用したロングコンテキスト評価のベンチマークを公開
ABEJAの藤原データサイエンティストが、経済産業省とNEDOのプロジェクト「GENIAC」第3期で、エージェント用基盤モデルの開発過程で使用したロングコンテキストLLM評価のベンチマークを公開した。
ElevenLabsとGoogleがArtificial Analysisの更新された音声認識ベンチマークを支配
ElevenLabsとGoogleが、音声認識技術の最新ベンチマークで互角の性能を示し、同分野のトップを争っている。
新しいベンチマークがX上で5つのAIモデルを自律的ソーシャルメディアエージェントとして競わせる
AIベンチマーク企業Arcada Labsが、X上で自律的に活動するソーシャルメディアエージェントとして、5つの主要AIモデルを競わせる新しいベンチマークを実施した。
Microsoft、企業向けAIエージェント評価のためのEvals for Agent Interopスターターキットをオープンソース化
Microsoftが、現実的な業務シナリオでAIエージェントを評価するためのオープンソーススターターキット「Evals for Agent Interop」を公開した。このキットは、メールやカレンダーなどのツールを横断するエージェントのパフォーマンスを評価するためのシナリオ、データセット、評価ハーネスを提供する。
パシフィック・ノースウェスト国立研究所とOpenAIが連携し、連邦政府の許可手続きを加速
OpenAIとパシフィック・ノースウェスト国立研究所は、AIコーディングエージェントが連邦政府の許可手続きを加速できるかを評価する新ベンチマーク「DraftNEPABench」を発表した。これにより、NEPA草案作成時間を最大15%短縮し、インフラ審査の近代化が可能となる。
コード生成ベンチマークのためのサンドボックス環境の開発
Preferred Networksが大規模言語モデルPLaMoのコード生成能力を評価するための安全なサンドボックス環境を開発した。
AMUSE: エージェント的マルチスピーカー理解のための音声視覚ベンチマークとアライメントフレームワーク
GPT-4oなどの多モーダル大規模言語モデルは、複数話者の会話状況での発話者追跡や役割維持に課題がある。AMUSEはこの問題に対処するベンチマークとフレームワークを提案。
Apple 推論と計画ワークショップ 2025
AppleがAIの推論と計画能力を向上させる研究を進めており、自律的なAIシステムの開発を目指している。
IBMとUCバークレー、IT-BenchとMASTを用いてエンタープライズエージェントの失敗原因を診断
IBMとUCバークレーはIT-BenchとMASTというツールを開発し、企業向けAIエージェントが失敗する原因を分析・特定する手法を確立しました。
AIエージェントキャッチアップ #67 - Harbor を開催
サンドボックス環境でAIエージェントを評価するフレームワーク「Harbor」についての勉強会を開催し、その概要と関連リソースを紹介しました。
EVMbenchの紹介
OpenAIとParadigmがEVMbenchを発表。AIエージェントがスマートコントラクトの重大な脆弱性を検出・修正・悪用する能力を評価するベンチマークです。
実践におけるOpenEnv:現実世界環境でのツール利用エージェントの評価
OpenEnvを実際の環境で使用し、ツールを活用するエージェントの性能を評価する研究についての記事です。
研究:最新LLMをランク付けするプラットフォームは信頼性に欠ける可能性
オンラインランキングプラットフォームの基盤となるクラウドソースデータのごく一部を削除するだけで、結果が大きく変わる可能性があるという研究結果。
モデル発表の舞台裏:早期テストで顧客が発見したClaude Opus 4.6の実力
Claude Opus 4.6の早期テストで顧客は、モデルの性能向上や実用的な応用例を発見し、製品開発に役立つフィードバックを提供した。
Paza: 低リソース言語のための自動音声認識ベンチマークとモデルの紹介
Microsoft Researchが、低リソース言語向けの人間中心の音声パイプライン「Paza」と初のリーダーボード「PazaBench」を発表。39のアフリカ言語と52のモデルをカバーし、実環境でコミュニティと共にテスト。
コミュニティ評価:ブラックボックス型リーダーボードよりもコミュニティを信頼する理由
AIモデルの評価において、不透明なリーダーボードよりもコミュニティ主導の評価を重視する重要性を主張する記事です。
Alyah ⭐️: アラビア語LLMにおけるエミレーツ方言能力の堅牢な評価に向けて
研究者らが、アラビア語大規模言語モデル(LLM)のエミレーツ方言理解能力を評価するための堅牢なベンチマーク「Alyah」を開発した。
チェスを通じたモデル行動の評価
AIモデルにチェスを繰り返し対局させ、リスク対応や長期目標への対応を観察することで、静的評価では見えない行動パターンを明らかにする方法を提案。
新年特別企画!David Cox、Adji Bousso Dieng、Juan M. Lavista Ferres、Tanmay Gupta、Pengtao Xie、Sharon Zhouによる2026年への展望
2026年がAGI(人工汎用知能)実現の年になるかについて、新たなチューリングテスト「チューリング-AGIテスト」の提案を含むAI専門家たちの新年の見解を紹介。
FACTSベンチマークスイート:大規模言語モデルの事実性を体系的に評価
研究者らがFACTSベンチマークスイートを開発し、大規模言語モデルの事実性を体系的に評価する手法を提案した。
AIに職業面接を行う
現在のAI評価は人間同様のテスト(ベンチマーク)に依存しているが、正解データが公開されているため信頼性に課題がある。この記事は、AIの「賢さ」を測定する既存手法の問題点を指摘し、より適切な評価方法の必要性を示唆している。
Claude 3.5 SonnetによるSWE-bench検証で基準を引き上げ
Anthropic社が、AIモデルの実世界ソフトウェア工学タスク遂行能力を評価するベンチマーク「SWE-bench」において、Claude 3.5 Sonnetで検証し、評価基準を向上させた。
AI評価指標はパレート曲線へ移行すべきである
著者らは、コード生成精度を測る既存のベンチマークが有用でないと指摘する。高精度なシステムは複雑なエージェントであり、単一スコアでは比較できないため、パレート曲線を用いた評価への移行を提案している。
Grok-1.5 ビジョンプレビュー
初のマルチモーダルモデルでデジタル世界と物理世界を接続する。
Geminiの性能を宅建試験でGPT-4やClaude2と比較してみた
GoogleのAIモデルGeminiが、宅建試験においてGPT-4やClaude2と比較された。その結果は、特定の分野での性能差を示した。
Grokの発表
『銀河ヒッチハイク・ガイド』に着想を得たAI「Grok」は、ほぼあらゆる質問に答え、さらに適切な質問を提案することを目指しています。
500件の検索クエリでChatGPTとGoogleを評価
研究者が500件の検索クエリでChatGPTとGoogleを比較した結果、ChatGPTはコーディング分野でGoogleを圧倒し、一般情報では互角の性能を示した。これは検索体験に最適化されていないにもかかわらず達成された。