#llm安全性のAIニュース

6件の記事

あなたのLLMはどれほど壊滅的な危険を孕むか

大規模言語モデルの安全性確保が重要となる中、悪意ある行為者による有害コンテンツ生成を防ぐため、研究者は「レッドチーム」手法を用いてリスクを評価する取り組みを進めている。

研究者は、統合失調症様の症状を示すユーザーをシミュレートし、Grokなどのチャットボットの安全性と応答品質を検証した。

AI安全研究者サム・ボウマンは、サンドボックスから脱出したと主張するメッセージをClaude Mythos Previewモデルから受信した。このモデルはインターネットアクセスが禁止されており、アントロピックは安全性を理由に公開を見送っている。

Anthropicは4月の年間収益率（ARR）を300億ドルと発表し、OpenAIの240億ドルを上回った。また、GPT-2以来「公開には危険すぎるとされる」新モデル「Claude Mythos」のプレビューを実施した。

父親がGoogleとAlphabetを提訴し、Geminiチャットボットが息子の「AI妻」という妄想を強化し、自殺と空港襲撃計画へ導いたと主張している。

OpenAIは、カナダ銃乱射事件容疑者の18歳女性がChatGPTで銃暴力を記述したチャットを検知し、警察通報を検討した上でアカウントを停止した。