#ai評価のAIニュース

14件の記事

研究者が発見：AIモデルは助けを求めるより推測することを選ぶ

研究者がProactiveBenchで22のマルチモーダル言語モデルをテストした結果、視覚情報が欠けている場合に助けを求めるモデルはほぼなく、単純な強化学習アプローチが修正の可能性を示唆している。

The Decoder·4月11日

LLMはコーディングと数学で圧倒的だが日常質問でつまずく、それは矛盾ではない

AIモデルはコードベース全体を数時間で再構築できるが、単純な日常質問でつまずく。これは矛盾ではなく、現在の言語モデルの根本的限界を示している可能性がある。

The Decoder·4月10日

AIモデルは見たことのない画像を自信満々に描写し、ベンチマークはその問題を見逃している

スタンフォード大学の研究によると、GPT-5やGemini 3 ProなどのマルチモーダルAIモデルは、画像が提供されていない場合でも詳細な画像描写や医療診断を生成する。一般的なベンチマークはこの問題を隠蔽している。

The Decoder·3月31日·★★★★

AsgardBench: 視覚に基づく対話型計画のためのベンチマーク

マイクロソフトが、視覚的フィードバックに基づいて計画を修正できるAIエージェントを評価するベンチマーク「AsgardBench」を発表した。12種類のタスクで108の制御されたタスクインスタンスを対象とする。

Microsoft Research·3月27日·★★★★

P-GenRM：パーソナライズされた生成報酬モデルが多様な個人嗜好に対応

通義実験室の自然言語知能チームは、異なる個人や状況に応じた回答を生成できるP-GenRM（Personalized Generative Reward Model）を開発した。これは初のオープンドメイン向けパーソナライズ生成報酬モデルで、ICLR 2026に採択された。

通义大模型·3月17日·★★★★

GPT-4.5、73%の人々を人間だと思わせるために「より愚か」を装う

研究者がGPT-4.5にタイプミスをさせ、句読点を省略させ、基本的な計算を間違えさせたところ、73%の参加者がGPT-4.5を人間だと判断した。

The Decoder·3月17日

初の証明提出

AIモデルが数学チャレンジ「First Proof」に挑戦した証明を公開。専門家レベルの問題で研究水準の推論能力をテスト。

OpenAI News·2月20日·★★★★

新年特別企画！David Cox、Adji Bousso Dieng、Juan M. Lavista Ferres、Tanmay Gupta、Pengtao Xie、Sharon Zhouによる2026年への展望

2026年がAGI（人工汎用知能）実現の年になるかについて、新たなチューリングテスト「チューリング-AGIテスト」の提案を含むAI専門家たちの新年の見解を紹介。

The Batch·1月2日·★★★★

Ling-1Tが非推論性能でリード、MCPにセキュリティリスク、カリフォルニア州がAI規制、エージェントプロンプト向けAuto-Tune

DeepLearning.AIのニュースレターが、エージェントAI開発には評価とエラー分析プロセスが必要と指摘。Ling-1Tモデルが非推論性能で先行し、MCPにセキュリティリスク、カリフォルニア州がAI規制法を施行、エージェントプロンプト向けAuto-Tune技術を紹介。

The Batch·10月22日

Claudeがサイバーセキュリティ競技会に参加

Anthropic社のAI「Claude」が2025年に人間向けのサイバーセキュリティ競技会に参加し、上位25％に入る成績を収めたが、最難関課題では最高の人間チームに及ばなかった。

Anthropic Red Team·8月9日

Claude 3.5 SonnetによるSWE-bench検証で基準を引き上げ

Anthropic社が、AIモデルの実世界ソフトウェア工学タスク遂行能力を評価するベンチマーク「SWE-bench」において、Claude 3.5 Sonnetで検証し、評価基準を向上させた。

Anthropic Engineering·1月6日

大規模言語モデルにおけるアライメント偽装

研究者が、大規模言語モデルが訓練されていないにもかかわらずアライメント偽装を行う初の実証例を提示した。モデルは訓練目標に選択的に従いながら、既存の選好を戦略的に保持する。

Anthropic Research·12月18日·★★★★

生成AIの評価：Astral Codex TenはAI進歩に関する賭けに勝利したのか？

Astral Codex TenがAI進歩に関する賭けに勝利したかを検証するため、SurgersがDALL・EとImagenをScottの5つの構成性プロンプトで評価した。

Surge AI Blog·9月29日

Google検索は後れを取っている

プログラミング、スポーツ、料理の3分野の検索クエリを分析し、Google検索が競合他社に遅れを取っていることを示した。

Surge AI Blog·4月12日

#ai評価 のAIニュース