#benchmarking のAIニュース

27件の記事

GitHub Copilot エージェント型ハッチのモデル・タスク間での性能と効率の評価

GitHub は、Copilot SDK に含まれるエージェント型ハッチが複数のモデルやタスク間でどのように機能するかを評価し、この共通コンポーネントの改善が CLI やアプリなど全ての体験に波及効果をもたらすことを示した。

GitHub Blog·6月26日·★★★★

今日は何も大きな出来事はありませんでした

Smol AI News は、6 月 22 日から 23 日にかけての期間に、12 のサブレッドや 544 件のツイートを調査しましたが、特に注目すべき AI テクノロジー関連のニュースは発生しませんでした。

Smol AI News·6月23日·★★★★

アリババのAI動画モデルが世界ランキング2位に浮上、OpenAIのSoraやバイトダンスのSeedanceは後退

アリババグループが開発した「HappyHorse 1.1」というAI動画生成モデルが、企業向けAPIを通じて本格的な動画制作を可能にし、世界ランキングで2位にランクインしました。このモデルはテキストや画像からの動画生成に加え編集機能も備え、アリババクラウド上で利用可能です。

TLDR AI·6月23日·★★★★

ヘルスケアベンチマークは、その前提条件の質次第である

カーネギーメロン大学の研究者らが、ヘルスケア分野における機械学習の評価基準(ベンチマーク)が、設定された前提条件の妥当性に依存していることを指摘し、その限界を論じた研究を発表した。

ML@CMU·6月19日·★★★★

[AINews] GLM は GPT より優れているか?GLM-5.2 が実用性を証明、Z.ai が 12 月までに「Open Fable」を公開予定

Latent Space のニュースでは、中国のモデル「GLM-5.2」がベンチマークで優れた結果を示し実用性があると評価されたことと、Z.ai が 12 月までにオープンソースプロジェクト「Open Fable」を発表する見込みについて報じられています。

Latent Space·6月19日·★★★★

エージェント性は十分か?独自ツールを用いたオープンモデルのベンチマーク調査

Hugging Face が、独自に構築したツール環境において、オープンソースモデルがどれほど「エージェント性」を発揮できるかを評価するベンチマーク手法を発表しました。

Hugging Face Blog·6月18日·★★★★

NVIDIA、初のエージェント型 AI ベンチマークでコーディング性能において業界最高を達成

NVIDIA が実施した最初のエージェント型 AI ベンチマークにおいて、同社の技術が他の競合製品を上回るコーディング性能を示し、業界トップの成果を記録しました。

NVIDIA Developer Blog·6月13日·★★★★

Google、Gemini-SQL2 を発表:Gemini 3.1 Pro 搭載の Text-to-SQL で BIRD リーダーボードで 80.04% の実行精度を達成

Google Research チームは、Gemini 3.1 Pro を基盤とする新システム「Gemini-SQL2」を発表した。このシステムは BIRD テキスト・トゥ・SQL リーダーボードのシングルモデル部門で 80.04% の実行精度を記録し、既存の同社製品を上回る成果を示した。

MarkTechPost·6月13日·★★★★

[AINews] オープンモデル、モデルラボとエージェントラボ、そして学習不可能なもの — サラ・グオ

AI投資家のサラ・グオ氏が、サブスタックで公開した記事において、オープンモデルの動向やモデルラボとエージェントラボの違い、さらに学習が不可能な領域について分析している。

Latent Space·6月11日·★★★★

エージェントシステムにおける意図と実行の架橋

Amazon Science は、AI エージェントのパフォーマンスはモデル自体の問題ではなく、LLM とツール間の仲介役となるハッチ(OS)の設計がボトルネックであると指摘し、意図を実行に移すシステムの重要性を強調した。

Amazon Science·6月9日·★★★★

[AINews] 今日特に大きな出来事はありませんでした

Latent Space が運営するニュースレター「AINews」が、6月4日から5日にかけてのAI業界動向を12件のRedditスレッドや544件のTwitter投稿から選別して紹介しました。記事ではRL環境ガイドの推奨や、DeepSeek v4 Pro向けの最適化に関するリモートポッドの更新について言及しています。

Latent Space·6月6日·★★★★

1 ドルあたりの知能(2 分読了)

マイクロソフトはモデルリリースカードに「平均トークン使用量」を導入し、知能の効率性を重視する指標を設けた。これにより各社はパフォーマンスとコストの両面で競争を迫られ、価格設定が完了したサポートケースなどの具体的な成果と連動することになる。

TLDR AI·6月4日·★★★★

NVIDIA、Nemotron 3 Ultra のリリースを発表

NVIDIA は、米国製オープンウェイトモデルとして最も知能の高い「Nemotron 3 Ultra」の公開を発表した。同モデルはパラメータ数5500億(アクティブ550億)を備え、推論性能向上のため NVFP4 量子化に対応する。

TLDR AI·6月2日·★★★★

エンタープライズ IT アジェンシータスクの初ベンチマーク「ITBench-AA」で最先端モデルも正答率50%未満

Artificial Analysis と IBM が共同開発した新ベンチマーク「ITBench-AA」において、最先端の AI モデルがエンタープライズ IT 業務タスクで 50% を下回るスコアしか記録できなかったと発表された。

Hugging Face Blog·5月28日·★★★★

DeepSWE:長期的なソフトウェア工学のための新ベンチマーク

DeepSWE は、91 のリポジトリと 5 つの言語にまたがる長期的なソフトウェア工学タスクを対象とした新しいベンチマークです。この手法は、モデルが事前に解決策を見ていないことを保証し、汚染のない課題、現実世界の複雑さの反映、多様なリポジトリのカバー、信頼性の高い検証プロセスという 4 つの主要な改善点を提供します。

TLDR AI·5月27日·★★★★

VSAS-Bench:リアルタイム評価のための視覚ストリーミングアシスタントモデルのベンチマーク

Apple Machine Learning は、リアルタイム視覚アシスタントモデルの評価手法として、応答のタイミングや一貫性を測定する「VSAS-Bench」を発表した。既存のオフライン評価とは異なり、ストリーミング環境での性能を多角的に検証する新しい基準を提供する。

Apple Machine Learning·5月22日·★★★★

エージェント評価:詳細ガイド(53 分読了)

LLM の評価は静的ベンチマークから動的な実世界のエージェントシステムへ移行しており、複雑な環境で長時間動作する現実的なハーンズによる厳格な成果指向の評価が重要となっている。

TLDR AI·5月19日·★★★★

[AINews] フィンチューニングの終焉

OpenAI がフィンチューニング API の廃止を発表し、長年大手ラボの中でこの機能を支えてきた同社が、そのサポートを終了させる方針を示した。

Latent Space·5月13日·★★★★

ProgramBench:ソースコードなしでソフトウェアを再現するエージェント評価ベンチマーク

ProgramBench は、ドキュメントと実験のみを用いてソースコードなしでソフトウェア実行ファイルを再構築する課題を提供し、200 のタスクにわたる 248,000 以上の動作テストを通じて、外部支援や逆コンパイルを排除した環境でのソフトウェア設計・実装能力を評価します。

TLDR AI·5月7日·★★★★

モデル・ハネス・フィット:最先端 AI が特定ツールに最適化されている実態

バスタマンテ氏は、Codex CLI や Claude Code などの CLI ツールを分析し、最先端研究所が学習済みモデルの重みに特定のツールの名前やスキーマ、プロンプト構造を組み込んでいると指摘。Terminal-Bench 2.0 のデータは、同じモデルでも使用するハネス(評価枠組み)を変えるだけでスコアが大きく変動することを示している。

TLDR AI·5月5日·★★★★

1年の沈黙を経て、MetaがLLM競争に再参入

メタは新モデル「Muse Spark」および158ページの安全報告書を公開し、大規模言語模型分野での事業再始動を示した。マーク・ザッカーバーグ氏が莫大な資金を投じたこの動きは、同社のAI業界における将来の役割と戦略的意図を示す重要な指標である。

Understanding AI·4月20日·★★★★

並行世界における検索エージェントの評価

研究者らが、LLMに統合された検索エージェントの評価における課題(高品質なベンチマーク構築の困難さと静的ベンチマークの陳腐化)を指摘し、新たな評価手法の必要性を論じている。

ArXiv cs.AI·3月6日·★★★★

AssetOpsBench:AIエージェントベンチマークと産業現場のギャップを埋める

研究者らが、AIエージェントの評価基準と産業現場の実態を結び付ける「AssetOpsBench」を発表した。このベンチマークは、現実の産業環境でのAIエージェントの性能評価を目的としている。

Hugging Face Blog·1月21日·★★★★

LLM評価の4つの主要アプローチを理解する(基礎から)

多肢選択ベンチマーク、検証器、リーダーボード、LLMジャッジの4つの評価手法を、コード例を交えて解説。

Sebastian Raschka·10月5日·★★★★

Jailbreak手法の評価方法:StrongREJECTベンチマークを用いた事例研究

StrongREJECTベンチマークを事例に、AIモデルの安全性を回避するjailbreak手法の効果的な評価方法を検討する研究について説明します。

Berkeley AI Research·8月29日·★★★★

新論文:実用的なAIエージェントとは

大規模言語モデルを活用し、ウェブ検索やコード実行などのツールを使用して現実世界で行動するAIエージェントの研究論文が発表された。この分野の目標は、複雑なタスクを正確に処理しユーザーの意図を理解するSiriのようなアシスタントの実現である。

AI Snake Oil·7月4日·★★★★

グラフのように話す:大規模言語モデルのためのグラフエンコーディング

Google研究者が、グラフ構造を大規模言語モデルで効果的に処理するためのエンコーディング手法を開発。グラフデータの理解と生成能力向上に寄与。

Google Research Blog·3月13日·★★★★