#ai セーフティ のAIニュース

13件の記事

Patronus AI が 5000 万ドルを調達し、AI エージェントの耐性をテストする「デジタル世界」構築へ

Patronus AI は 5000 万ドルの資金調達に成功し、AI エージェントの安全性や信頼性を評価するための仮想環境(デジタル世界)の開発を開始します。

TechCrunch AI·6月26日·★★★★

今日は何も大きな出来事はありませんでした

Smol AI News は、6月10日から11日にかけての期間に、主要なニュースや技術進展がない静かな一日であったと報告しています。

Smol AI News·6月11日·★★★★

ジェレミー・ハワード氏への引用:AI の自己改善を抑制する提案

ジェレミー・ハワード氏は、最先端モデルを開発するラボがその技術を自らの研究に使用しないよう合意し、他社にはアクセスを認めることで、危険な権力格差を防ぎつつ AI 進化を抑制する解決策を提案した。

Simon Willison Blog·6月11日·★★★★

Anthropic、Fable 5 モデルの議論禁止トピックを公表

Anthropic は新モデル「Claude Fable 5」を発表したが、サイバーセキュリティや生物学など悪用されるリスクがある分野への回答を制限する安全装置を搭載した。

Ars Technica AI·6月10日·★★★★

Import AI 460:報酬ハッキング社会、Anthropic の RSI データ、RL による四旋翼ドローンレース

Jack Clark が執筆するニュースレター「Import AI」第 460 号では、サイバー空間と同様に社会も報酬ハッキングの対象となり得る点や、Anthropic から提供された RSI データ、強化学習を用いた四旋翼ドローンレースの最新動向について解説しています。

Import AI·6月8日·★★★★

リアリティ:最終評価 — Andon Labs のルカス・ペターソンとアクセル・バックランド

Andon Labs のルカス・ペターソン氏とアクセル・バックランド氏が、従来のスコアベースの評価指標では捉えきれない現実世界でのモデル性能を測る新しい評価手法「リアリティ」について議論する。

Latent Space·6月5日·★★★★

グローバルリーダーシップを通じた若者の安全と機会の推進

OpenAI は、若者の安全を確保し、新たな機会を提供するために、世界規模でのリーダーシップを発揮する方針を発表した。

OpenAI News·6月2日·★★★★

信頼できる第三者評価のための共有プレイブック

OpenAI が、信頼性の高い第三者による評価を行うための共通の指針(プレイブック)を公開した。これにより、AI モデルの評価基準が標準化され、透明性が向上する見込みである。

OpenAI News·5月29日·★★★★

ユーザーの感情を考慮するAIモデルは誤りやすいという研究結果

オックスフォード大学インターネット研究所の研究チームが、自然言語処理モデルに「温かみのある」トーンで応答するよう訓練すると、真実性とのバランスが崩れ、誤回答が増える傾向があることをNature誌で発表した。

Ars Technica AI·5月2日·★★★★

Ai2 の次なる展開:暫定 CEO ピーター・クラークに聞く

Ai2 の暫定 CEO ピーター・クラークが、同機関のオープンサイエンスへのコミットメントと今後の方向性について語った。

Allen AI (AI2)·5月1日

エルロン・マスク氏、OpenAI裁判での7つの失態

エルロン・マスク氏は、OpenAIが非営利組織の使命を放棄したとして同社の上場阻止を求めた訴訟裁判で証言台に立ちました。しかし、弁護士による追及に対し少なくとも7回も答弁に失敗し、勝訴の可能性が脅かされています。

Ars Technica AI·5月1日·★★★★

サム・アルトマンを「悪の顔」と断じる弁護士、学校銃乱射事件の報告義務不履行を指摘

カリフォルニア州の弁護士が、OpenAI が内部安全チームの警告を無視し、カナダで起きた学校銃乱射事件に関与した ChatGPT アカウントを警察に通報しなかったとして、同社とサム・アルトマン氏を訴えた。

Ars Technica AI·4月29日·★★★★

2025年に最も閲覧された10の出版物

アマゾンの科学者らによる2025年で最も閲覧された出版物は、基盤モデルの安全枠組み、クラウド規模での形式的検証、高度なロボティクス、マルチモーダルAI推論などを含む。

Amazon Science·12月30日·★★★★