#ベンチマークのAIニュース

82件の記事

Perplexity新ベンチマーク発表

PPLXQuery2QueryとPPLXQuery2Docの内部ベンチマークを公開

パシフィック・ノースウェスト国立研究所とOpenAIが連携し、連邦政府の許可手続きを加速

OpenAIとパシフィック・ノースウェスト国立研究所は、AIコーディングエージェントが連邦政府の許可手続きを加速できるかを評価する新ベンチマーク「DraftNEPABench」を発表した。これにより、NEPA草案作成時間を最大15%短縮し、インフラ審査の近代化が可能となる。

OpenAI News·2月26日

コード生成ベンチマークのためのサンドボックス環境の開発

Preferred Networksが大規模言語モデルPLaMoのコード生成能力を評価するための安全なサンドボックス環境を開発した。

Preferred Networks·2月25日

AMUSE: エージェント的マルチスピーカー理解のための音声視覚ベンチマークとアライメントフレームワーク

GPT-4oなどの多モーダル大規模言語モデルは、複数話者の会話状況での発話者追跡や役割維持に課題がある。AMUSEはこの問題に対処するベンチマークとフレームワークを提案。

Apple Machine Learning·2月24日·★★★★

AIコーディング評価基準の変更

フロンティアAIモデルのコーディング評価基準が成熟に伴い変更

X: OpenAI Developers·2月24日·★★★★

AI習熟度指数発表

AnthropicがAI習熟度指数の新研究を発表。数千人の行動を分析。

X: Anthropic·2月24日

Apple 推論と計画ワークショップ 2025

AppleがAIの推論と計画能力を向上させる研究を進めており、自律的なAIシステムの開発を目指している。

Apple Machine Learning·2月23日·★★★★

Deep Agents改善でTop5達成

LangChainのコーディングエージェントがTop30からTop5へ向上

X: LangChain·2月22日·★★★★

Google論文がLLM推論評価に新提案

Googleの新論文が大規模言語モデルの推論能力測定方法に疑問を提示

X: elvis·2月22日·★★★★

日本語の自然さを測る評価手法の検証

Preferred NetworksがLLM PLaMo開発で、日本語の自然さを評価するベンチマーク手法を検証。英語と異なり日本語向けの評価基準構築が重要と指摘。

Preferred Networks·2月20日

Gemini 3.1 Pro発表

Google AIが新モデルGemini 3.1 Proを発表。推論能力が大幅向上。

X: Google AI·2月20日·★★★★

エージェントの記憶効果測定改善

AIエージェントの記憶効果測定方法の改善についての発表

X: elvis·2月20日

AIエージェント自律性の実践的測定

数百万のインタラクションを分析したAnthropicの新研究

X: Anthropic·2月19日·★★★★

LangChain実験ベースライン機能

LangChainで実験のベースラインを固定できる新機能がリリース

X: LangChain·2月19日

IBMとUCバークレー、IT-BenchとMASTを用いてエンタープライズエージェントの失敗原因を診断

IBMとUCバークレーはIT-BenchとMASTというツールを開発し、企業向けAIエージェントが失敗する原因を分析・特定する手法を確立しました。

Hugging Face Blog·2月19日·★★★★

AIエージェントキャッチアップ #67 - Harbor を開催

サンドボックス環境でAIエージェントを評価するフレームワーク「Harbor」についての勉強会を開催し、その概要と関連リソースを紹介しました。

Generative Agents·2月18日

EVMbenchの紹介

OpenAIとParadigmがEVMbenchを発表。AIエージェントがスマートコントラクトの重大な脆弱性を検出・修正・悪用する能力を評価するベンチマークです。

OpenAI News·2月18日·★★★★

実践におけるOpenEnv：現実世界環境でのツール利用エージェントの評価

OpenEnvを実際の環境で使用し、ツールを活用するエージェントの性能を評価する研究についての記事です。

Hugging Face Blog·2月12日·★★★★

Arenaモード公開リーダーボード

AIモデル性能ランキング公開、OpusとSonnetが上位

X: Windsurf·2月12日

モデル発表の舞台裏：早期テストで顧客が発見したClaude Opus 4.6の実力

Claude Opus 4.6の早期テストで顧客は、モデルの性能向上や実用的な応用例を発見し、製品開発に役立つフィードバックを提供した。

Claude Blog·2月9日·★★★★

Hugging Faceの新機能発表

コミュニティ評価とベンチマークデータセットの提供開始

X: Hugging Face·2月6日

Hugging Faceが分散評価リポジトリを公開

Hugging Faceがコミュニティ評価とベンチマークの分散リポジトリをリリース

X: Hugging Face·2月6日

コミュニティ評価：ブラックボックス型リーダーボードよりもコミュニティを信頼する理由

AIモデルの評価において、不透明なリーダーボードよりもコミュニティ主導の評価を重視する重要性を主張する記事です。

Hugging Face Blog·2月4日·★★★★

Alyah ⭐️: アラビア語LLMにおけるエミレーツ方言能力の堅牢な評価に向けて

研究者らが、アラビア語大規模言語モデル（LLM）のエミレーツ方言理解能力を評価するための堅牢なベンチマーク「Alyah」を開発した。

Hugging Face Blog·1月27日·★★★★

JFBench：実務レベルの日本語指示追従性能を備えた生成AIを目指して

Preferred NetworksのPLaMo事後学習チームは、純国産生成AI基盤モデルPLaMo 2.2 Primeをリリースし、実務レベルの日本語指示追従性能を評価するベンチマークJFBenchを開発した。

Preferred Networks·1月27日·★★★★

チェスを通じたモデル行動の評価

AIモデルにチェスを繰り返し対局させ、リスク対応や長期目標への対応を観察することで、静的評価では見えない行動パターンを明らかにする方法を提案。

Dagster Blog·1月7日

新年特別企画！David Cox、Adji Bousso Dieng、Juan M. Lavista Ferres、Tanmay Gupta、Pengtao Xie、Sharon Zhouによる2026年への展望

2026年がAGI（人工汎用知能）実現の年になるかについて、新たなチューリングテスト「チューリング-AGIテスト」の提案を含むAI専門家たちの新年の見解を紹介。

The Batch·1月2日·★★★★

FACTSベンチマークスイート：大規模言語モデルの事実性を体系的に評価

研究者らがFACTSベンチマークスイートを開発し、大規模言語モデルの事実性を体系的に評価する手法を提案した。

Google DeepMind·12月9日·★★★★

Claude 3.5 SonnetによるSWE-bench検証で基準を引き上げ

Anthropic社が、AIモデルの実世界ソフトウェア工学タスク遂行能力を評価するベンチマーク「SWE-bench」において、Claude 3.5 Sonnetで検証し、評価基準を向上させた。

Anthropic Engineering·1月6日

Grok-1.5 ビジョンプレビュー

初のマルチモーダルモデルでデジタル世界と物理世界を接続する。

xAI News·4月12日·★★★★

Grokの発表

『銀河ヒッチハイク・ガイド』に着想を得たAI「Grok」は、ほぼあらゆる質問に答え、さらに適切な質問を提案することを目指しています。

xAI News·11月3日·★★★★

500件の検索クエリでChatGPTとGoogleを評価

研究者が500件の検索クエリでChatGPTとGoogleを比較した結果、ChatGPTはコーディング分野でGoogleを圧倒し、一般情報では互角の性能を示した。これは検索体験に最適化されていないにもかかわらず達成された。

Surge AI Blog·12月21日·★★★★

← 前へ2 / 2

#ベンチマーク のAIニュース