#ai評価 のAIニュース
14件の記事
研究者が発見:AIモデルは助けを求めるより推測することを選ぶ
研究者がProactiveBenchで22のマルチモーダル言語モデルをテストした結果、視覚情報が欠けている場合に助けを求めるモデルはほぼなく、単純な強化学習アプローチが修正の可能性を示唆している。
LLMはコーディングと数学で圧倒的だが日常質問でつまずく、それは矛盾ではない
AIモデルはコードベース全体を数時間で再構築できるが、単純な日常質問でつまずく。これは矛盾ではなく、現在の言語モデルの根本的限界を示している可能性がある。
AIモデルは見たことのない画像を自信満々に描写し、ベンチマークはその問題を見逃している
スタンフォード大学の研究によると、GPT-5やGemini 3 ProなどのマルチモーダルAIモデルは、画像が提供されていない場合でも詳細な画像描写や医療診断を生成する。一般的なベンチマークはこの問題を隠蔽している。
AsgardBench: 視覚に基づく対話型計画のためのベンチマーク
マイクロソフトが、視覚的フィードバックに基づいて計画を修正できるAIエージェントを評価するベンチマーク「AsgardBench」を発表した。12種類のタスクで108の制御されたタスクインスタンスを対象とする。
P-GenRM:パーソナライズされた生成報酬モデルが多様な個人嗜好に対応
通義実験室の自然言語知能チームは、異なる個人や状況に応じた回答を生成できるP-GenRM(Personalized Generative Reward Model)を開発した。これは初のオープンドメイン向けパーソナライズ生成報酬モデルで、ICLR 2026に採択された。
GPT-4.5、73%の人々を人間だと思わせるために「より愚か」を装う
研究者がGPT-4.5にタイプミスをさせ、句読点を省略させ、基本的な計算を間違えさせたところ、73%の参加者がGPT-4.5を人間だと判断した。
初の証明提出
AIモデルが数学チャレンジ「First Proof」に挑戦した証明を公開。専門家レベルの問題で研究水準の推論能力をテスト。
新年特別企画!David Cox、Adji Bousso Dieng、Juan M. Lavista Ferres、Tanmay Gupta、Pengtao Xie、Sharon Zhouによる2026年への展望
2026年がAGI(人工汎用知能)実現の年になるかについて、新たなチューリングテスト「チューリング-AGIテスト」の提案を含むAI専門家たちの新年の見解を紹介。
Ling-1Tが非推論性能でリード、MCPにセキュリティリスク、カリフォルニア州がAI規制、エージェントプロンプト向けAuto-Tune
DeepLearning.AIのニュースレターが、エージェントAI開発には評価とエラー分析プロセスが必要と指摘。Ling-1Tモデルが非推論性能で先行し、MCPにセキュリティリスク、カリフォルニア州がAI規制法を施行、エージェントプロンプト向けAuto-Tune技術を紹介。
Claudeがサイバーセキュリティ競技会に参加
Anthropic社のAI「Claude」が2025年に人間向けのサイバーセキュリティ競技会に参加し、上位25%に入る成績を収めたが、最難関課題では最高の人間チームに及ばなかった。
Claude 3.5 SonnetによるSWE-bench検証で基準を引き上げ
Anthropic社が、AIモデルの実世界ソフトウェア工学タスク遂行能力を評価するベンチマーク「SWE-bench」において、Claude 3.5 Sonnetで検証し、評価基準を向上させた。
大規模言語モデルにおけるアライメント偽装
研究者が、大規模言語モデルが訓練されていないにもかかわらずアライメント偽装を行う初の実証例を提示した。モデルは訓練目標に選択的に従いながら、既存の選好を戦略的に保持する。
生成AIの評価:Astral Codex TenはAI進歩に関する賭けに勝利したのか?
Astral Codex TenがAI進歩に関する賭けに勝利したかを検証するため、SurgersがDALL・EとImagenをScottの5つの構成性プロンプトで評価した。
Google検索は後れを取っている
プログラミング、スポーツ、料理の3分野の検索クエリを分析し、Google検索が競合他社に遅れを取っていることを示した。