#benchmark のAIニュース

7件の記事

LifeSciBench の紹介（7 分読了）

TLDR AI が、生命科学分野の AI モデル評価を目的としたベンチマーク「LifeSciBench」を発表しました。

TLDR AI·6月18日·★★★★

今日は何も大きな出来事はありませんでした

Smol AI News は、5 月 28 日から 29 日にかけての期間に、12 のサブレッドや 544 件のツイートを調査しましたが、特に注目すべき AI テクノロジー関連のニュースは発生しませんでした。

Smol AI News·5月29日·★★★★

事前学習済みモデル向けベンチマーク構築の取り組み

Preferred Networks は、推論モデル中心の既存評価基準を見直し、事前学習済み大規模言語モデル PLaMo の能力を適切に測定する新たなベンチマーク構築を進めている。

Preferred Networks·5月18日·★★★★

本日は特に目立った出来事なし

AIニュース配信元「AINews」は、2026年5月11日から12日にかけて複数のコミュニティを調査したが、業界に大きな影響を与える新発表や技術進展は見られなかった。

Smol AI News·5月12日·★★★★

SocialReasoning-Bench：AI エージェントがユーザーの利益のために行動できるかを測定するベンチマーク

マイクロソフト研究所は、AI エージェントがユーザーの代わりに交渉や対話を行う際に必要な社会的推論能力を評価する「SocialReasoning-Bench」を発表した。このベンチマークは、2 つの実用的なシナリオにおいて、エージェントがユーザーの最善の利益のために行動できるかをテストするものである。

Microsoft Research·5月12日·★★★★

多モーダル LLM の空間・機能知能を評価するベンチマーク「SFI-Bench」の提案

研究者らは、既存のベンチマークが幾何学的知覚に留まる課題を指摘し、物的存在の場所だけでなく目的を理解する高次認知能力を評価する動画ベースのベンチマーク「SFI-Bench」を発表した。

Apple Machine Learning·5月6日·★★★★

マルチ画像推論への準備はできているか？VHs：ビジュアル・ヘイスタック・ベンチマークの発表！

マルチ画像推論の能力を評価するための新しいベンチマーク「ビジュアル・ヘイスタック」が発表されました。

Berkeley AI Research·7月20日·★★★★