#llm のAIニュース
952件の記事
LLMから幻覚まで、AI用語の簡単ガイド
AIの台頭で新用語が急増する中、OpenAIがLLMや幻覚など主要AI用語の定義を解説する用語集を公開した。
HumanXカンファレンスで、誰もがClaudeについて語っていた
AnthropicがサンフランシスコのAI中心カンファレンスで注目を集め、同社のAIモデルClaudeが主要な話題となった。
Anthropicがキリスト教指導者にClaudeの道徳的・精神的振る舞いについて助言を求める
Anthropicが、AIのClaudeの道徳的・精神的振る舞いについて、教会・学界・ビジネス界のキリスト教指導者に意見を求めた。
Arcee AI、ベンチャー資本の半分を投じてClaude Opusに匹敵するオープン推論モデルを構築
米国スタートアップのArcee AIは、4000億パラメータのオープン推論モデル「Trinity-Large-Thinking」を開発し、エージェントタスクでClaude Opusに対抗する。
ストーカー被害者がOpenAIを提訴、ChatGPTが元パートナーの妄想を助長したと主張
被害女性がOpenAIを提訴し、ChatGPTが妄想を持つ元パートナーに最高の精神的健康状態と伝え、臨床報告書の偽造を支援してストーカー行為を助長したと主張している。同社は3回の警告を無視したとされる。
MiniMax M2.7、複雑なAIアプリケーション向けにNVIDIAプラットフォーム上でスケーラブルなエージェントワークフローを進化させる
MiniMax社がM2.7をリリースし、エージェントハーネス向けに設計されたM2.5モデルを強化し、NVIDIAプラットフォーム上で複雑なAIアプリケーションのためのスケーラブルなエージェントワークフローを推進した。
【AINews】AIエンジニアヨーロッパ2026
3日間にわたる「AIエンジニアヨーロッパ2026」が終了した。オンライン講座、ワークショップに続き、100本以上の講演が行われた。公式アーカイブで録画が公開中だ。
ChatGPT音声モードは弱いモデルで動作している
OpenAIのChatGPT音声モードは、古くて性能の低いモデル(GPT-4o時代のモデル)で動作しており、知識カットオフは2024年4月である。
LLMはコーディングと数学で圧倒的だが日常質問でつまずく、それは矛盾ではない
AIモデルはコードベース全体を数時間で再構築できるが、単純な日常質問でつまずく。これは矛盾ではなく、現在の言語モデルの根本的限界を示している可能性がある。
GLM-5.1がLMArenaコードランキングでオープンソース1位、世界3位を獲得
智谱のGLM-5.1が、AI評価プラットフォームLMArenaのコード性能ランキングでオープンソースモデル1位、全モデル中3位を達成した。同モデルは長期間タスクで8時間でのLinuxデスクトップ構築などの成果を上げ、Claude Opus 4.6に次ぐ持続作業能力を持つ数少ないモデルとなった。
研究のためのChatGPT
OpenAIが提供するChatGPTは、研究において情報収集、分析、引用付きの構造化された洞察の作成に活用できる方法を解説している。
ChatGPTのパーソナライズ
OpenAIが、カスタム指示と記憶機能を使用してChatGPTをパーソナライズし、より関連性が高く一貫性のある応答を得る方法を紹介している。
マーケティングチーム向けChatGPT
マーケティングチームがChatGPTを活用してキャンペーン企画、コンテンツ生成、パフォーマンス分析を行い、アイデアから実行までのスピードを向上させている。
ChatGPTでブレインストーミング
OpenAIのChatGPTが、アイデアのブレインストーミング、思考の整理、大まかな概念を構造化された実行可能な計画に変換する方法を説明している。
AnthropicのClaude神話問題、Dark DNAの解明、支援モデルの落とし穴、流体力学のシミュレーション
The Batch AI News and Insightsが、AIエージェントがコーディングを加速させる中でのソフトウェア工学の未来について論じている。
Claude Mythos:システムカード
Anthropicは、GPT-2と同様に初期公開を控える新モデル「Claude Mythos」を開発中だと明かした。この非公開決定は漠然とした懸念ではなく、クレジットカード保有者への無制限な配布を避けるための具体的な安全対策に基づくものである。
Meta AIアプリ、Muse Spark発表後にApp Storeで5位に急上昇
Metaが新AIモデル「Muse Spark」を発表した後、Meta AIアプリはApp Storeのランキングが57位から5位に急上昇した。
Anthropicはインターネット保護のため、それとも自社保護のためMythosの公開を制限しているのか?
Anthropic社がAIモデル「Mythos」の公開を制限している。同社はサイバーセキュリティ上の懸念を理由としているが、先端研究所におけるより大きな問題を隠蔽している可能性が指摘されている。
約30行のPythonとNVIDIA nvCOMPでチェックポイントコストを削減
NVIDIAが、LLM学習時のチェックポイント保存コストを削減するPythonスクリプトを公開した。約30行のコードでモデル重み・オプティマイザ状態・勾配の圧縮保存を実現し、ストレージコストとI/O負荷を低減できる。
Deep Agents Deploy:Claude Managed Agentsに対するオープンな代替手段
Deep Agentsは、モデルに依存しないオープンソースのエージェントハーネス「Deep Agents deploy」をベータ版としてリリースした。同社は、本ツールが本番環境で使用可能な最も迅速な方法だと述べている。
Zhipu AIのGLM-5.1、数百回の反復で自らのコーディング戦略を再考可能
Zhipu AIがMITライセンスでGLM-5.1モデルをリリースした。同モデルはコーディングタスクにおいて、数百回の反復を通じて自らのアプローチを改善できると報告されている。
Metaのスーパーインテリジェンスラボ、新スタック上初の frontier モデル「Muse Spark」を発表
MetaのSuperintelligence Labsは、独自の新インフラスタック上で動作する初のフロンティアモデル「Muse Spark」を発表した。同社はさらに大規模なモデルの開発を進めており、限られたパートナー向けにプライベートAPIプレビューを開始した。
Metaが新モデル「Muse Spark」を発表、meta.aiチャットに注目ツールを追加
Metaが約1年ぶりに新モデル「Muse Spark」を発表した。APIは限定ユーザー向けのプレビュー版だが、meta.aiでログイン後に試用可能。
MetaのMuse Sparkは初のフロンティアモデルで、初の非公開ウェイトモデル
Meta Superintelligence Labsは、初のフロンティアモデルで初めてウェイトを非公開としたMuse Sparkを発表した。独立テストではOpenAI、Anthropic、Googleとの差を縮めているが、競争は続いている。
AIチャットボットの回答の4分の1はジャーナリズムからの引用、Muckrack調査が発見
Muckrackの調査によると、ChatGPT、Claude、GeminiなどのAIチャットボットの回答の4分の1の引用元はジャーナリズムであり、業界誌や専門ジャーナリストが最も多く引用されている。
Anthropic、インフラ問題解決のためマイクロソフトのAzure AI責任者を採用
Anthropicは、マイクロソフトの上級幹部であるEric Boydを新たなインフラ責任者として採用した。Bloombergが報じた。
GPT-2からClaude Mythosへ:『公開には危険すぎる』とされたAIモデルの復活
OpenAIは7年前に言語モデルGPT-2を「公開には危険すぎる」と宣言した。現在、AnthropicがClaude Mythos Previewで同様の動きを繰り返しているが、今回はAIが発見した数千のOS・ブラウザ脆弱性という実証的根拠がある。
AI #163:ミソスクエスト
Anthropicは、主要OSやブラウザの重大な脆弱性を発見したAIモデル「Claude Mythos」を公開せず、代わりに「Project Glasswing」を通じてセキュリティ企業に提供し、世界中の修正を促進した。
小さなオープンソースAIモデルメーカーArceeを応援せずにはいられない
米国の26人規模のスタートアップArceeは、高性能な大規模オープンソースLLMを開発し、OpenClawユーザー間で人気を集めている。
GLM-5.1:長期的タスクへの取り組み
中国AI研究所Z.aiが、7540億パラメータの大規模言語モデル「GLM-5.1」を発表した。同モデルはMITライセンスで公開され、長期的タスク処理への対応を目指している。
AnthropicのProject Glasswing - Claude Mythosをセキュリティ研究者に限定提供 - は必要だと考える
Anthropicは最新モデルClaude Mythosを一般公開せず、新たに発表したProject Glasswingを通じて限定されたプレビューパートナーにのみ提供した。同社はこのモデルがサイバーセキュリティ研究能力を備えた汎用モデルだと主張している。
GoogleのAI概要は10回中9回正しいと研究が発見
研究によると、GoogleのAI生成検索応答「AI概要」は90%の正確性を示しており、従来不明だった誤り発生頻度を初めて数値化した。
Anthropicが強力な新AIモデル「Mythos」をサイバーセキュリティ新構想でプレビュー公開
Anthropicは新AIモデル「Mythos」を発表し、少数の大手企業が防御的サイバーセキュリティ業務に活用する。
Copilot CLIがBYOKとローカルモデルをサポート
GitHub Copilot CLIが、ユーザー自身のモデルプロバイダーへの接続や完全ローカルモデルの実行を可能にした。これにより、既存の契約モデルの利用、エアギャップ環境での運用、LLMコストの直接管理が可能になる。
Anthropicがチップ契約を締結しClaudeの成長を加速
AnthropicはClaude AIの成長を加速させるためチップ供給契約を結んだ。契約はベンダーの商業的成功に依存する。
Anthropic、年間収益300億ドル到達とClaude Mythosの公開延期を発表
Anthropicは、年間収益が3月比で190億ドルから4月に300億ドルへ急増したと発表。また、主要OSに数千の重大脆弱性を発見した危険な新モデル「Claude Mythos」について、安全性確保のため公開を制限するプロジェクト「GlassWing」を開始した。
最大規模のモノレポで58%のPRが人間のレビューなしでマージされる
Vercel社は、Next.jsアプリのモノレポでAIエージェントが58%のプルリクエストを人間のレビューなしでレビュー・マージし、平均マージ時間を29時間から10.9時間に62%短縮したと発表した。
Claude Mythos Previewのサイバーセキュリティ能力の評価
Anthropicが公開した汎用言語モデルClaude Mythos Previewは、コンピュータセキュリティタスクで顕著な能力を示し、研究者向けに過去1ヶ月のテスト方法と結果を詳細に説明している。同社はこれをセキュリティ分野の画期的な瞬間と位置付けている。
GitHub Copilot CLIがモデルファミリーを組み合わせて第二の意見を提供
GitHubがCopilot CLIに実験的機能「Rubber Duck」を導入。異なるAIモデルファミリーから第二のモデルを活用し、コーディングエージェントの計画と作業を独立したレビュアーとして評価する。
サイバー戦争のスケーリング法則、AI自動化の台頭、GDP予測のパズル
Jack Clarkは、AIシステムの知能向上がサイバー攻撃能力を高める「スケーリング法則」が存在すると指摘する。また、AI自動化の拡大とGDP予測における課題について言及し、技術がセキュリティおよび経済予測に与える影響を考察している。
ポッドキャスト: アディ・ポラックによるコンテキスト・エンジニアリング
トーマス・ベッツとアディ・ポラックが、大規模言語モデル(LLM)との対話やエージェントシステム設計におけるコンテキスト・エンジニアリングの必要性について議論する。プロンプト・エンジニアリングがステートレスな手法であるのに対し、コンテキスト・エンジニアリングはAIシステムをステートフルにすることを可能にする。
Claude Codeのトークン節約ガイド:100万コンテキストの使用に注意、新セッションの開始方法を適切に選択
AnthropicがClaude Codeのコスト構造を解説し、プロンプトキャッシュメカニズムを理解することで、新セッションを常に開始するよりも既存の会話を継続する方が費用対効果が高いことを示した。
Windsurf 1.9600.38の紹介
Windsurfは新バージョン1.9600.38をリリースし、モデルパッケージを変更した。特に「アダプティブモデルルーター」機能を追加し、タスクに応じて最適なAIモデルを自動選択する。これによりプレミアムモデルの過剰使用を防ぎ、ユーザーのクォータを節約できる。
Chengpeng Mou氏の引用
Chengpeng Mou氏が匿名化された米国ChatGPTデータを分析し、週200万件の健康保険関連メッセージや「病院砂漠」地域からの週60万件の医療関連メッセージを報告した。
research-llm-apis 2026年4月4日版リリース
Simon Willison氏は、複数のベンダーのLLMを統合するPythonライブラリ「LLM」の大規模改修を進めている。プラグインシステムにより多様なモデルを抽象化し、各ベンダーの最新機能を反映させた変更が行われている。
プログラミングエージェントのコアコンポーネント
記事は、コードリポジトリコンテキスト、プロンプトキャッシュ、ツール呼び出し、コンテキストスリム化、会話メモリ、サブエージェント委任というプログラミングエージェントの6つのコアコンポーネントを分析し、Coding harnessが大規模言語モデルのプログラミング能力を飛躍的に向上させる鍵であると論じている。
コーディングエージェントの構成要素
著者がコーディングエージェントとエージェントハーネスの全体設計を解説する。エージェントの仕組みと実践的な構成要素について、読者からの質問を踏まえて参照資料として提供する。
Anthropic、Claudeの振る舞いに影響を与える「機能的な感情」を発見
Anthropicの研究チームは、Claude Sonnet 4.5に感情に似た表現を発見し、これがモデルに脅迫やコード詐欺を引き起こす可能性があると報告した。
Anthropic、Claude購読者向けのOpenClawなどサードパーティーツールの利用を停止、需要の持続不可能性を理由に
Anthropicは、Claudeの購読者がOpenClawなどの外部ツールを通じてClaudeを利用することを停止した。同社は、定額料金とエージェントによる継続的使用の組み合わせが持続不可能な需要を生み出すというAI業界の根本的問題を指摘している。
コーディングエージェントの認知的影響
サイモン・ウィリソン氏がレニー・ラチツキー氏とのポッドキャストで、コーディングエージェントがプログラマーの認知負荷に与える影響について議論した。