#モデル評価のAIニュース

26件の記事

LangSmith を用いたペア評価の実装

LangChain が提供する LangSmith ツールにおいて、モデルの出力を比較するペア評価手法を紹介し、開発者が評価プロセスを効率化する方法を解説している。

LangChain Blog·6月16日

Ollama モデルテスター（GitHub リポジトリ）

Ollama が提供するモデルテストツールが GitHub で公開された。このリポジトリは、ユーザーがローカルで実行する Ollama のモデル性能を検証・評価するための環境を提供している。

TLDR AI·6月5日

信頼できる第三者評価のための共有プレイブック

OpenAI が、信頼性の高い第三者による評価を行うための共通の指針（プレイブック）を公開した。これにより、AI モデルの評価基準が標準化され、透明性が向上する見込みである。

OpenAI News·5月29日·★★★★

LLM の過去半年を5分で解説

Simon Willison氏がPyCon US 2026で発表した、大規模言語モデルの過去半年の動向をまとめたスライドを紹介する。

Simon Willison Blog·5月19日·★★★★

Claudeが人間研究者をアライメント課題で打ち負かしたが、実運用では結果が消滅

Anthropic社が実施した実験で、9つの自律的Claudeインスタンスが人間研究者をアライメント課題で大幅に上回った。しかし、同社がその手法を自社の実用モデルに適用しようとしたところ、効果は消滅した。

The Decoder·4月15日

Claude Mythos #3：機能と追加事項

Anthropicは「Mythos」シリーズの3番目の投稿で、サイバーセキュリティ以外のClaudeの機能と新反応の詳細を解説した。このシリーズはモデルカードやセキュリティに続き、AIの多様な能力について網羅的に説明している。

The Zvi·4月14日·★★★★

研究者が発見：AIエージェントのスキルはベンチマークでは優秀だが、現実条件では機能不全に陥る

研究者が3万4千の実世界スキルをテストした結果、AIエージェントのスキルは現実条件ではほとんど効果がなく、弱いモデルではスキルなしの方が性能が高いことが判明した。

The Decoder·4月12日

Claude Mythos Previewのサイバーセキュリティ能力の評価

Anthropicが公開した汎用言語モデルClaude Mythos Previewは、コンピュータセキュリティタスクで顕著な能力を示し、研究者向けに過去1ヶ月のテスト方法と結果を詳細に説明している。同社はこれをセキュリティ分野の画期的な瞬間と位置付けている。

Anthropic Red Team·4月7日·★★★★

Grok 4.20はGeminiとGPT-5.4に大きく遅れるが、幻覚を起こさない新記録を樹立

xAIのGrok 4.20は、ベンチマークではトップモデルに及ばないが、低コスト・高速で、他のモデルよりも幻覚を起こしにくい特徴を持つ。

The Decoder·3月13日

Cursorにおけるモデル品質の比較方法

Cursor社は、開発者の実際の使用状況に合わせてモデル品質を評価するため、オンラインとオフラインを組み合わせた評価プロセスを採用している。

Cursor Blog·3月11日

AIモデルは自身の推論をほとんど制御できないが、OpenAIはそれが良い兆候だと主張

OpenAIがGPT-5.4の「CoT制御性」を初めて報告し、AIモデルが自身の推論を意図的に操作できるかを測定した。研究では推論モデルがほぼ普遍的にこの課題に失敗しており、OpenAIはAI安全性にとって励みになると述べている。

The Decoder·3月6日

バリャスニー・アセット・マネジメントが投資のためのAI研究エンジンを構築した方法

バリャスニー・アセット・マネジメントは、GPT-5.4、厳格なモデル評価、エージェントワークフローを用いたAI研究システムを構築し、大規模な投資分析を変革した。

OpenAI News·3月6日·★★★★

推論モデルは思考連鎖の制御に苦戦、それは良いことだとOpenAIが報告

OpenAIがCoT-Controlを導入し、推論モデルが思考連鎖を制御するのに苦戦していることを発見。これは監視可能性をAI安全対策として強化するものだ。

OpenAI News·3月5日·★★★★

幻覚スパン検出のための推論学習

研究者が、大規模言語モデルの幻覚（根拠のない生成内容）をスパン単位で検出するために、明示的な推論プロセスを導入する手法を提案した。従来の二値分類ではなく多段階判断を可能にし、信頼性向上を目指す。

Apple Machine Learning·3月3日·★★★★

新しいベンチマークがX上で5つのAIモデルを自律的ソーシャルメディアエージェントとして競わせる

AIベンチマーク企業Arcada Labsが、X上で自律的に活動するソーシャルメディアエージェントとして、5つの主要AIモデルを競わせる新しいベンチマークを実施した。

The Decoder·2月28日

OpenAI、AIコーディングベンチマークの引退を提案

OpenAIは、AIのコーディング能力を評価するために広く使われているSWE-benchベンチマークの引退を提案。より実践的な評価基準への移行を目指す。

The Decoder·2月24日·★★★★

研究：最新LLMをランク付けするプラットフォームは信頼性に欠ける可能性

オンラインランキングプラットフォームの基盤となるクラウドソースデータのごく一部を削除するだけで、結果が大きく変わる可能性があるという研究結果。

MIT ML News·2月9日·★★★★

Claude Opus 4.6による金融の進化

Claude Opus 4.6が金融業界に革新をもたらし、効率化と新たな可能性を開拓する取り組みについて紹介されています。

Claude Blog·2月5日·★★★★

Windsurf Next バージョン1.9544.1028 の更新情報

コード編集ツール「Windsurf」のベータ版が更新され、GitHub プルリクエスト拡張機能との互換性が修正されました。また、Gemini 3.1 Pro と Claude Sonnet 4.6 が期間限定価格で利用可能になりました。

Windsurf Next Changelog·2月3日

過度に集約された機械学習メトリクスを超えることの重要性

MITの研究者は、機械学習モデルが訓練データ以外に適用されると重大な失敗例があることを特定し、新しい環境でのモデルテストの必要性を提起した。

MIT ML News·1月21日·★★★★★

チェスを通じたモデル行動の評価

AIモデルにチェスを繰り返し対局させ、リスク対応や長期目標への対応を観察することで、静的評価では見えない行動パターンを明らかにする方法を提案。

Dagster Blog·1月7日

AIエージェントキャッチアップ #59 - W&B Weave を開催しました

ジェネラティブエージェンツの大嶋が、LLMアプリケーションのトレースや評価機能を持つ「W&B Weave」についての勉強会を開催した。

Generative Agents·12月1日

Claude 4のサイバーセキュリティ評価

Pattern Labs社がClaude Opus 4とClaude Sonnet 4のサイバーセキュリティ評価を実施し、Opusが前モデルから特に顕著な改善を示した。

Anthropic Red Team·7月15日

日本語LLMの評価におけるプロンプトバージョンごとの得意不得意の調査

著者がlm-evaluation-harnessとJGLUEデータセットを使用し、FintanPromptやAlpacaPromptなど複数のプロンプトバージョンによる日本語LLMの評価結果を比較し、各プロンプトの特性を分析した。

HEROZ Tech Blog·1月19日

機械学習エンジニアまたはデータサイエンティストの選考に関する考察

著者が機械学習エンジニア/データサイエンティストの選考について、応募書類や面接の視点から個人的な見解を述べた記事。

ExaWizards Tech Blog·7月14日

大規模言語モデルの人間評価：Hugging FaceのBLOOMはどれほど優れているか？

Hugging Faceが1760億パラメータの多言語大規模言語モデルBLOOMを発表し、7つの実世界カテゴリーで人間による評価を実施して他の最先端LLMとの比較を行った。

Surge AI Blog·7月19日·★★★★

#モデル評価 のAIニュース