#ベンチマーク のAIニュース
82件の記事
Perplexity新ベンチマーク発表
PPLXQuery2QueryとPPLXQuery2Docの内部ベンチマークを公開
パシフィック・ノースウェスト国立研究所とOpenAIが連携し、連邦政府の許可手続きを加速
OpenAIとパシフィック・ノースウェスト国立研究所は、AIコーディングエージェントが連邦政府の許可手続きを加速できるかを評価する新ベンチマーク「DraftNEPABench」を発表した。これにより、NEPA草案作成時間を最大15%短縮し、インフラ審査の近代化が可能となる。
コード生成ベンチマークのためのサンドボックス環境の開発
Preferred Networksが大規模言語モデルPLaMoのコード生成能力を評価するための安全なサンドボックス環境を開発した。
AMUSE: エージェント的マルチスピーカー理解のための音声視覚ベンチマークとアライメントフレームワーク
GPT-4oなどの多モーダル大規模言語モデルは、複数話者の会話状況での発話者追跡や役割維持に課題がある。AMUSEはこの問題に対処するベンチマークとフレームワークを提案。
AIコーディング評価基準の変更
フロンティアAIモデルのコーディング評価基準が成熟に伴い変更
AI習熟度指数発表
AnthropicがAI習熟度指数の新研究を発表。数千人の行動を分析。
Apple 推論と計画ワークショップ 2025
AppleがAIの推論と計画能力を向上させる研究を進めており、自律的なAIシステムの開発を目指している。
Deep Agents改善でTop5達成
LangChainのコーディングエージェントがTop30からTop5へ向上
Google論文がLLM推論評価に新提案
Googleの新論文が大規模言語モデルの推論能力測定方法に疑問を提示
日本語の自然さを測る評価手法の検証
Preferred NetworksがLLM PLaMo開発で、日本語の自然さを評価するベンチマーク手法を検証。英語と異なり日本語向けの評価基準構築が重要と指摘。
Gemini 3.1 Pro発表
Google AIが新モデルGemini 3.1 Proを発表。推論能力が大幅向上。
エージェントの記憶効果測定改善
AIエージェントの記憶効果測定方法の改善についての発表
AIエージェント自律性の実践的測定
数百万のインタラクションを分析したAnthropicの新研究
LangChain実験ベースライン機能
LangChainで実験のベースラインを固定できる新機能がリリース
IBMとUCバークレー、IT-BenchとMASTを用いてエンタープライズエージェントの失敗原因を診断
IBMとUCバークレーはIT-BenchとMASTというツールを開発し、企業向けAIエージェントが失敗する原因を分析・特定する手法を確立しました。
AIエージェントキャッチアップ #67 - Harbor を開催
サンドボックス環境でAIエージェントを評価するフレームワーク「Harbor」についての勉強会を開催し、その概要と関連リソースを紹介しました。
EVMbenchの紹介
OpenAIとParadigmがEVMbenchを発表。AIエージェントがスマートコントラクトの重大な脆弱性を検出・修正・悪用する能力を評価するベンチマークです。
実践におけるOpenEnv:現実世界環境でのツール利用エージェントの評価
OpenEnvを実際の環境で使用し、ツールを活用するエージェントの性能を評価する研究についての記事です。
Arenaモード公開リーダーボード
AIモデル性能ランキング公開、OpusとSonnetが上位
モデル発表の舞台裏:早期テストで顧客が発見したClaude Opus 4.6の実力
Claude Opus 4.6の早期テストで顧客は、モデルの性能向上や実用的な応用例を発見し、製品開発に役立つフィードバックを提供した。
Hugging Faceの新機能発表
コミュニティ評価とベンチマークデータセットの提供開始
Hugging Faceが分散評価リポジトリを公開
Hugging Faceがコミュニティ評価とベンチマークの分散リポジトリをリリース
コミュニティ評価:ブラックボックス型リーダーボードよりもコミュニティを信頼する理由
AIモデルの評価において、不透明なリーダーボードよりもコミュニティ主導の評価を重視する重要性を主張する記事です。
Alyah ⭐️: アラビア語LLMにおけるエミレーツ方言能力の堅牢な評価に向けて
研究者らが、アラビア語大規模言語モデル(LLM)のエミレーツ方言理解能力を評価するための堅牢なベンチマーク「Alyah」を開発した。
JFBench:実務レベルの日本語指示追従性能を備えた生成AIを目指して
Preferred NetworksのPLaMo事後学習チームは、純国産生成AI基盤モデルPLaMo 2.2 Primeをリリースし、実務レベルの日本語指示追従性能を評価するベンチマークJFBenchを開発した。
チェスを通じたモデル行動の評価
AIモデルにチェスを繰り返し対局させ、リスク対応や長期目標への対応を観察することで、静的評価では見えない行動パターンを明らかにする方法を提案。
新年特別企画!David Cox、Adji Bousso Dieng、Juan M. Lavista Ferres、Tanmay Gupta、Pengtao Xie、Sharon Zhouによる2026年への展望
2026年がAGI(人工汎用知能)実現の年になるかについて、新たなチューリングテスト「チューリング-AGIテスト」の提案を含むAI専門家たちの新年の見解を紹介。
FACTSベンチマークスイート:大規模言語モデルの事実性を体系的に評価
研究者らがFACTSベンチマークスイートを開発し、大規模言語モデルの事実性を体系的に評価する手法を提案した。
Claude 3.5 SonnetによるSWE-bench検証で基準を引き上げ
Anthropic社が、AIモデルの実世界ソフトウェア工学タスク遂行能力を評価するベンチマーク「SWE-bench」において、Claude 3.5 Sonnetで検証し、評価基準を向上させた。
Grok-1.5 ビジョンプレビュー
初のマルチモーダルモデルでデジタル世界と物理世界を接続する。
Grokの発表
『銀河ヒッチハイク・ガイド』に着想を得たAI「Grok」は、ほぼあらゆる質問に答え、さらに適切な質問を提案することを目指しています。
500件の検索クエリでChatGPTとGoogleを評価
研究者が500件の検索クエリでChatGPTとGoogleを比較した結果、ChatGPTはコーディング分野でGoogleを圧倒し、一般情報では互角の性能を示した。これは検索体験に最適化されていないにもかかわらず達成された。