#モデル評価 のAIニュース
26件の記事
LangSmith を用いたペア評価の実装
LangChain が提供する LangSmith ツールにおいて、モデルの出力を比較するペア評価手法を紹介し、開発者が評価プロセスを効率化する方法を解説している。
Ollama モデルテスター(GitHub リポジトリ)
Ollama が提供するモデルテストツールが GitHub で公開された。このリポジトリは、ユーザーがローカルで実行する Ollama のモデル性能を検証・評価するための環境を提供している。
信頼できる第三者評価のための共有プレイブック
OpenAI が、信頼性の高い第三者による評価を行うための共通の指針(プレイブック)を公開した。これにより、AI モデルの評価基準が標準化され、透明性が向上する見込みである。
LLM の過去半年を5分で解説
Simon Willison氏がPyCon US 2026で発表した、大規模言語モデルの過去半年の動向をまとめたスライドを紹介する。
Claudeが人間研究者をアライメント課題で打ち負かしたが、実運用では結果が消滅
Anthropic社が実施した実験で、9つの自律的Claudeインスタンスが人間研究者をアライメント課題で大幅に上回った。しかし、同社がその手法を自社の実用モデルに適用しようとしたところ、効果は消滅した。
Claude Mythos #3:機能と追加事項
Anthropicは「Mythos」シリーズの3番目の投稿で、サイバーセキュリティ以外のClaudeの機能と新反応の詳細を解説した。このシリーズはモデルカードやセキュリティに続き、AIの多様な能力について網羅的に説明している。
研究者が発見:AIエージェントのスキルはベンチマークでは優秀だが、現実条件では機能不全に陥る
研究者が3万4千の実世界スキルをテストした結果、AIエージェントのスキルは現実条件ではほとんど効果がなく、弱いモデルではスキルなしの方が性能が高いことが判明した。
Claude Mythos Previewのサイバーセキュリティ能力の評価
Anthropicが公開した汎用言語モデルClaude Mythos Previewは、コンピュータセキュリティタスクで顕著な能力を示し、研究者向けに過去1ヶ月のテスト方法と結果を詳細に説明している。同社はこれをセキュリティ分野の画期的な瞬間と位置付けている。
Grok 4.20はGeminiとGPT-5.4に大きく遅れるが、幻覚を起こさない新記録を樹立
xAIのGrok 4.20は、ベンチマークではトップモデルに及ばないが、低コスト・高速で、他のモデルよりも幻覚を起こしにくい特徴を持つ。
Cursorにおけるモデル品質の比較方法
Cursor社は、開発者の実際の使用状況に合わせてモデル品質を評価するため、オンラインとオフラインを組み合わせた評価プロセスを採用している。
AIモデルは自身の推論をほとんど制御できないが、OpenAIはそれが良い兆候だと主張
OpenAIがGPT-5.4の「CoT制御性」を初めて報告し、AIモデルが自身の推論を意図的に操作できるかを測定した。研究では推論モデルがほぼ普遍的にこの課題に失敗しており、OpenAIはAI安全性にとって励みになると述べている。
バリャスニー・アセット・マネジメントが投資のためのAI研究エンジンを構築した方法
バリャスニー・アセット・マネジメントは、GPT-5.4、厳格なモデル評価、エージェントワークフローを用いたAI研究システムを構築し、大規模な投資分析を変革した。
推論モデルは思考連鎖の制御に苦戦、それは良いことだとOpenAIが報告
OpenAIがCoT-Controlを導入し、推論モデルが思考連鎖を制御するのに苦戦していることを発見。これは監視可能性をAI安全対策として強化するものだ。
幻覚スパン検出のための推論学習
研究者が、大規模言語モデルの幻覚(根拠のない生成内容)をスパン単位で検出するために、明示的な推論プロセスを導入する手法を提案した。従来の二値分類ではなく多段階判断を可能にし、信頼性向上を目指す。
新しいベンチマークがX上で5つのAIモデルを自律的ソーシャルメディアエージェントとして競わせる
AIベンチマーク企業Arcada Labsが、X上で自律的に活動するソーシャルメディアエージェントとして、5つの主要AIモデルを競わせる新しいベンチマークを実施した。
OpenAI、AIコーディングベンチマークの引退を提案
OpenAIは、AIのコーディング能力を評価するために広く使われているSWE-benchベンチマークの引退を提案。より実践的な評価基準への移行を目指す。
研究:最新LLMをランク付けするプラットフォームは信頼性に欠ける可能性
オンラインランキングプラットフォームの基盤となるクラウドソースデータのごく一部を削除するだけで、結果が大きく変わる可能性があるという研究結果。
Claude Opus 4.6による金融の進化
Claude Opus 4.6が金融業界に革新をもたらし、効率化と新たな可能性を開拓する取り組みについて紹介されています。
Windsurf Next バージョン1.9544.1028 の更新情報
コード編集ツール「Windsurf」のベータ版が更新され、GitHub プルリクエスト拡張機能との互換性が修正されました。また、Gemini 3.1 Pro と Claude Sonnet 4.6 が期間限定価格で利用可能になりました。
過度に集約された機械学習メトリクスを超えることの重要性
MITの研究者は、機械学習モデルが訓練データ以外に適用されると重大な失敗例があることを特定し、新しい環境でのモデルテストの必要性を提起した。
チェスを通じたモデル行動の評価
AIモデルにチェスを繰り返し対局させ、リスク対応や長期目標への対応を観察することで、静的評価では見えない行動パターンを明らかにする方法を提案。
AIエージェントキャッチアップ #59 - W&B Weave を開催しました
ジェネラティブエージェンツの大嶋が、LLMアプリケーションのトレースや評価機能を持つ「W&B Weave」についての勉強会を開催した。
Claude 4のサイバーセキュリティ評価
Pattern Labs社がClaude Opus 4とClaude Sonnet 4のサイバーセキュリティ評価を実施し、Opusが前モデルから特に顕著な改善を示した。
日本語LLMの評価におけるプロンプトバージョンごとの得意不得意の調査
著者がlm-evaluation-harnessとJGLUEデータセットを使用し、FintanPromptやAlpacaPromptなど複数のプロンプトバージョンによる日本語LLMの評価結果を比較し、各プロンプトの特性を分析した。
機械学習エンジニアまたはデータサイエンティストの選考に関する考察
著者が機械学習エンジニア/データサイエンティストの選考について、応募書類や面接の視点から個人的な見解を述べた記事。
大規模言語モデルの人間評価:Hugging FaceのBLOOMはどれほど優れているか?
Hugging Faceが1760億パラメータの多言語大規模言語モデルBLOOMを発表し、7つの実世界カテゴリーで人間による評価を実施して他の最先端LLMとの比較を行った。