#フロンティアモデルのAIニュース

9件の記事

信頼できる第三者による AI モデル評価のための OpenAI アウトラインプレイブック（4 分読了）

OpenAI は、最先端モデルの安全性と能力主張を検証するため、独立した信頼できる第三者が実施する評価の重要性を強調し、そのための教訓と推奨アプローチを提示しました。

OpenAI が、信頼性の高い第三者による評価を行うための共通の指針（プレイブック）を公開した。これにより、AI モデルの評価基準が標準化され、透明性が向上する見込みである。

セキュリティ専門家が、AI技術を悪用した攻撃の増加に対応するため、防御プログラムの強化を呼びかけている。

MetaのSuperintelligence Labsは、独自の新インフラスタック上で動作する初のフロンティアモデル「Muse Spark」を発表した。同社はさらに大規模なモデルの開発を進めており、限られたパートナー向けにプライベートAPIプレビューを開始した。

Meta Superintelligence Labsは、初のフロンティアモデルで初めてウェイトを非公開としたMuse Sparkを発表した。独立テストではOpenAI、Anthropic、Googleとの差を縮めているが、競争は続いている。

トーマス・プタチェックが、最新のフロンティアモデルが脆弱性研究分野に与える急激で巨大な影響について論じている。今後数ヶ月で、コーディングエージェントがエクスプロイト開発の実践と経済性を劇的に変えると予測している。

ARC-AGI-3は、人間が簡単に解決する対話型ゲーム環境でAIを評価する新ベンチマークを発表し、AIの最大の利点を排除したため、最先端モデルは全て1%未満のスコアしか達成できなかった。

フランスのAI企業ミストラルは、独自のAIスタック、データセンター容量への投資、オープンウェイトのフロンティアモデルを提供し、米国のプロプライエタリAIモデルに代わる選択肢をCIOに提供している。

Cursorウェブアプリで、Ultra、Teams、Enterpriseユーザー向けに長期実行エージェントが利用可能になりました。