#model evaluation のAIニュース

9件の記事

LLM評価パネルにおける相関誤差が信頼性を損なう：9人の判事、実効投票は2票のみ

Apple Machine Learningチームは、複数の大規模言語モデル（LLM）で構成される評価パネルの信頼性について調査した。その結果、9つの最先端モデルからなるパネルでも、相関する誤差により実質的な有効投票数は約2票に過ぎないことが判明した。

Apple Machine Learning·6月23日·★★★★

PLaMo-3.0-Prime-βをLLM開発現場で活用

Preferred Networksは、自社が開発する大規模言語モデル「PLaMo」の最新版「PLaMo-3.0-Prime-β」を、データ準備や評価、コード管理など開発業務に直接導入し、作業効率と品質向上を図るとともに、モデル自体の継続的な改善を進めている。

Preferred Networks·6月17日·★★★★

Claude Fable 5 と Mythos 5 のシステムカード発表

Zvi が Claude Fable 5 を公開されたモデルの中で最高と評価し、以前のモデルでは不可能だった支援を可能にする画期的な性能向上を示した。

The Zvi·6月13日·★★★★

空間生物学における新 Frontier モデルは高速化されたが信頼性は向上せず

GPT-5.5 は GPT-5.4 より実行時間が半分になったが精度は変わらず、Opus 4.7 も同様の結果を示した。一般推論の改善だけでは不十分で、統計設計やプラットフォーム固有の分析など専門的な訓練が必要である。

TLDR AI·5月1日·★★★★

AWS 生成 AI モデルアジリティソリューション：LLM の移行に関する包括ガイド

Amazon Web Services は、組織が技術進歩に適応し AI ソリューションを最適化できるよう、異なる大規模言語モデル（LLM）ファミリー間やバージョン間の構造的な移行アプローチと標準化されたプロセスを提供する包括的なガイドを発表した。

AWS Machine Learning Blog·5月1日·★★★★

OlmPool：小さなアーキテクチャの選択が長文コンテキスト拡張を阻害する仕組み

研究者らは26モデルからなる制御されたスイート「OlmPool」を作成し、学習データや拡張レシピを一定に保った場合でも、アーキテクチャ上の微小な選択が積み重なることで長文コンテキストの拡張が困難になることを示した。

Allen AI (AI2)·4月23日·★★★★

NotionのToken Town：5つの再構築、100以上のツール、MCP対CLI、そしてソフトウェアファクトリーの未来 — NotionのSimon Last & Sarah Sachs

Notionは、ChatGPT以前からAIツールを開発し、2023年のQ&A、2024年の統合AI、2025年の会議ノートで成功を収めた。Ryan Nystromが予告したNotion 3.0のカスタムエージェントを正式に採用し、Sarah SachsとSimon Lastがその構築プロセスについて解説している。

Latent Space·4月15日·★★★★

Gemma 4とオープンモデルの成功要因

著者は、2026年におけるGemma 4の公開モデル評価が困難な理由を分析する。過去のLlamaやQwenシリーズとの比較を通じて、オープンモデルが成功し研究コミュニティを活性化させるための条件について考察している。

Interconnects·4月4日·★★★★

GPT 5.4はCodexにとって大きな一歩

筆者はGPT 5.4のレビューを遅延させた理由として、エージェント構築における重要軸の考察に時間を割いたことを明かす。従来のベンチマークが正解率という単一スコアに依存する限界を指摘し、より解釈可能な評価指標の必要性を示唆している。

Interconnects·3月18日·★★★★