#llm のAIニュース
1853件の記事
Import AI 460:報酬ハッキング社会、Anthropic の RSI データ、RL による四旋翼ドローンレース
Jack Clark が執筆するニュースレター「Import AI」第 460 号では、サイバー空間と同様に社会も報酬ハッキングの対象となり得る点や、Anthropic から提供された RSI データ、強化学習を用いた四旋翼ドローンレースの最新動向について解説しています。
パキスタン向け安全問題解決のための小型 AI ツール「Pakistan Notice Helper」の開発
Hugging Face が、パキスタンのローカルな安全性課題に対応する小型 AI ツール「Pakistan Notice Helper」を開発したと発表した。
WWDC2026:視聴方法と予想される内容
アップルが主催する今年最大のイベント「WWDC2026」では、iOS や macOS など主要 OS の更新に加え、Siri の大規模刷新も発表される見込みです。本記事はライブ配信の視聴方法を案内しています。
On-policy のはずが Off-policy になる:LLM 強化学習 の rollout mismatchと対策(rollout correction)
トークン量争奪戦に DeepSeek が参入、支出支配は Anthropic が継続
Vercel の AI Gateway データによると、DeepSeek の利用シェアが単月で 1% から 17% に急増し、トークン量の争奪戦に本格参入した。一方、支出面では Anthropic が依然として支配的な地位を維持している。
Claude を Foundation Models フレームワークに組み込み、Apple プラットフォーム向けインテリジェントアプリを構築する
Anthropic は、自社の AI モデル「Claude」を Apple の Foundation Models フレームワークに統合し、開発者が iOS や macOS 上でローカル実行可能な高機能なインテリジェントアプリを容易に作成できる環境を提供したと発表した。
Apple の第 3 世代ファウンデーションモデルの紹介
Apple は Google と共同開発した第 3 世代のファウンデーションモデル(AFM)5 つを発表し、プライバシーを重視する新アーキテクチャに基づき、オンデバイスからプライベートクラウドまで統合された次世代 AI を提供すると発表した。
LLM が実際にどのように動作するか(26 分読了)
TLDR AI は、大規模言語モデルの内部仕組みと動作原理を解説する記事を発表しました。
5 つのラボ、5 つの知性:小型モデルで多モデル金融ドラマを構築する(6 分読)
複数の研究機関が協力し、小型言語モデルを活用して多様な視点を持つ金融ドラマを共同開発した。この取り組みは、リソース制約下での高度な生成技術の可能性を示している。
Anthropic が NSA にエンジニアを派遣し、攻撃用サイバー作戦向け「Mythos」を展開(3 分読了)
AI 企業 Anthropic は約 6 名のエンジニアを米国国家安全保障局(NSA)に配置し、中国やイランなどのネットワークへの侵入を目的とした攻撃用モデル「Mythos」のカスタマイズ支援を行っている。Anthropic は現在、軍での自社モデル使用に関するペンタゴンとの訴訟中である。
Anthropic および OpenAI 互換 API に最適化された Amazon Bedrock の新コンソールを試す(4 分読了)
Amazon は Anthropic と OpenAI の互換 API に最適化した新しい Bedrock コンソールを導入した。このコンソールは包括的なモデルカタログ、プロジェクトベースのワークフロー、自動コードスニペット付きのライブドキュメントを特徴とし、AI モデルの評価から本番環境への移行を簡素化する。
化学者としての Claude の活用(12 分読)
Anthropic が開発した AI モデル「Claude」は、NMR スペクトルの予測において従来のツールに匹敵し、場合によっては上回る性能を示しました。特に Claude 派生モデルの「Opus 4.7」は水素や炭素シフトを正確に予測し、スペクトルデータから化学構造を推定する逆工学タスクでも有望な結果を出しています。
Anthropic や OpenAI は、ユーザーが支払う 100 ドルあたり 1,000 ドル以上を費やしている可能性がある(39 分読了)
TLDR AI は、LLM を活用したコーディングがすぐに安価になる見込みはないと指摘し、現在の利用はサブスクリプションの大幅な補助によるものだと説明しています。API を使用した本格的なユースケースではコストが高騰しており、開発者は費用増への備えとしてより堅牢なシステムの構築を準備する必要があるとしています。
これはトークンポカリプス(トークンの終焉)の幕開けか?
TechCrunch AI は、生成AIモデルが大量のトークンを消費する現状に対し、その持続可能性や将来のリスクを問う論考を発表した。
素晴らしいデジタル入れ歯(失敗したプロジェクト)
Hugging Face ブログは、デジタル技術を用いた入れ歯の開発プロジェクトが最終的に失敗に終わった経緯と教訓について報告している。
Notion、サービス障害後にAnthropicへのアクセスを復旧
Notionがサービス障害の影響により停止していたAnthropicとの連携機能を回復し、ユーザーは再びAI機能を利用できるようになった。
OpenAI、プロンプト注入攻撃から機密データを保護する「ロックダウンモード」を発表
OpenAI は、プロンプト注入攻撃によって機密データが漏洩するリスクを防ぐため、「Lockdown Mode」という新機能を発表した。この機能は、ユーザーの意図しない悪意ある指示によるデータ侵害を防止する役割を果たす。
5 つのラボ、5 つの思考:小規模モデルによるマルチモデル金融ドラマの構築
Hugging Face は、5 つの研究機関が協力し、小規模な AI モデルを活用して複数の視点を持つ金融ドラマを生成する手法を発表した。
WWDC2026 で期待されるもの:Siri の大規模刷新とApple Intelligenceの更新
Appleが2026年の開発者会議で、Siriの大幅な再設計とAI機能「Apple Intelligence」の新たなアップデートを発表する見込みです。
再び登場する新しいSiri
アップルは過去数年間、AI分野で苦戦を強いられてきたが、WWDCで新Siriの再導入を発表し、逆転を狙う動きを見せた。
ペルソナ・アトラス:著名な思考者の思考マップを可視化
Hugging Face が「Persona Atlas」を発表し、著名な人物の思考パターンや認知特性をマッピングする手法を公開した。これは AI の推論能力向上や人間理解の深化に寄与する研究である。
LLM 研究論文:2026 年 1 月から 5 月のリスト
Sebastian Raschka が、2026 年上半期(1 月〜5 月)に注目すべき大規模言語モデル関連の研究論文を選定し、一覧として公開した。
GPT-5.2 および GPT-5.2-Codex のサポート終了発表
GitHub Copilot は 2026 年 6 月 5 日付で、GPT-5.2 と GPT-5.2-Codex モデルのサポートを終了し、それぞれ GPT-5.5 および GPT-5.3-Codex への移行を推奨している。
30 億パラメータモデル上でマルチエージェント経済を稼働:Thousand Token Wood の実装
Hugging Face は、30 億パラメータの軽量モデルを用いて複数のエージェントが経済活動を行うシステム「Thousand Token Wood」の実装と配送を発表した。
言語モデルの較正に関する深掘り:プラットスケーリング、等温回帰、温度スケーリング
KDnuggets は、言語モデルの出力確率を調整する Platt スケーリング、等温回帰、温度スケーリングの各手法について詳細に解説している。
今日は何も起こらなかったわけではない:Anthropic の新モデルと Sakana AI の研究プログラムに注目が集まる
Anthropic は Claude Mythos と Opus 4.8 の反応が分かれる中、Opus 4.7 が化学タスクで高い性能を示した。また、Sakana AI は計算リソース制約下での再帰的自己改善を目的とした RSI Lab を正式に立ち上げた。
ハーネスエンジニアリングを、コンサル/PMOの業務に翻訳する
LLM が既知の脆弱性を利用した攻撃(N 日エクスプロイト)に与える影響を測定
Anthropic のレッドチームは、公開済みだが未修正の脆弱性を悪用する「N 日エクスプロイト」の開発プロセスにおいて、大規模言語モデルがその加速や自動化にどの程度寄与するかを実証的に評価した。
Anthropic、新生産コードの80%がClaudeによって作成されたと発表—企業も追いつく方法とは(7分読了)
Anthropicは、自社の生成AIモデル「Claude」が現在、新規に作成される生産用コードの80%を担っていると発表した。同社は、他社を含む企業がどのようにしてこの技術導入を加速し、競争力を高めるべきかについて具体的な戦略を示している。
Ollama モデルテスター(GitHub リポジトリ)
Ollama が提供するモデルテストツールが GitHub で公開された。このリポジトリは、ユーザーがローカルで実行する Ollama のモデル性能を検証・評価するための環境を提供している。
Nemotron 3.5 のコンテンツ安全性に関する解説(9 分読了)
NVIDIA が公開した「Nemotron 3.5」モデルのコンテンツ安全性機能について、その仕組みや性能を詳しく解説している記事です。
大規模な継続的トレースインテリジェンスの実現方法について(8 分読了)
Braintrust の創設者アンクル・ゴヤルは、標準的な NLP ツールが処理できない数百万トークンの生産用エージェントトレースを分析する知能層「Topics」を発表した。このパイプラインは、LLM サマリーを活用してコンテキストウィンドウの制限を超え、大規模なトレース解析を可能にする。
Red Team に「claude-oceanus-v1-p」が提供された新モデル発表
Anthropic が次期 Mythos の事前チェックポイント「Oceanus」を Red Team に提供し、中国の API プロキシを通じた不正転売により一時停止したが、公開日は未定。
Nexus の実世界での成果:早期アクセス顧客からの実際の結果
ベクトルデータベース「Pinecone」が提供する新機能「Nexus」について、早期アクセスに参加した顧客から得られた具体的な運用実績と効果報告を公開しました。
IPO を控えたアンソロピックのダニエラ・アモデイ氏、AI の収益性に関する疑念を軽視
IPO(株式公開)を目前に控えた AI 企業アンソロピックの最高経営責任者であるダニエラ・アモデイ氏は、人工知能技術がもたらす収益性に対する市場の懐疑的な見方をあえて否定せず、冷静に対応している。
エアビーアンドビーのブライアン・チェスキー氏、新たな AI ラボの立ち上げを計画
エアビーアンドビーの創業者兼 CEO ブライアン・チェスキー氏が、同社内で新しい人工知能研究ラボの設立を計画していることを明らかにした。
ロシアのプロパガンダに抵抗する能力において最も優れた大規模言語モデルとは
エストニア言語研究所は、外国の敵対国が推進する危険なプロパガンダを拡散する懸念に対応するため、大規模言語モデルがロシア連邦の戦略的トピックに対して立場を取らない能力を評価する「プロパガンダ抵抗」ベンチマークを発表した。
GitHub Copilot、100 万トークンのコンテキストウィンドウと設定可能な推論レベルをサポート
GitHub は開発者向け AI ツール「Copilot」に、最大 100 万トークン分のコンテキストウィンドウと、ユーザーが調整可能な推論レベル機能を追加した。これにより、大規模なコードベースや複雑な多ファイルプロジェクトでも文脈を維持しながら作業が可能になった。
NVIDIA Nemotron 3 Ultra が Amazon SageMaker JumpStart で利用可能に
AWS は、推論速度を5倍向上させ、コストを最大30%削減する「NVIDIA Nemotron 3 Ultra」モデルを、Amazon SageMaker JumpStart でワンクリックデプロイ可能にしたと発表した。
WWDC2026 で期待されるもの:Siri の大規模刷新とApple Intelligenceの更新
Appleが2026年の開発者会議で、Siriの大幅な再設計とAI機能「Apple Intelligence」の新たなアップデートを発表する見込みです。
GitHub Copilot Chat がプルリクエストに豊富な文脈を提供
GitHub は、Copilot ライセンスを持つユーザー向けに、Pull Request の差分作業時に会話履歴やコードを横並びで表示する機能を一般提供開始した。これにより、チャットとコードの切り替えが不要になり、コメント追加やインライン編集が効率化された。
存在しない判例を引用した弁護士を裁判官が厳しく批判する様子を見よ
生成 AI を使用した弁護士が、架空の判例や引用を含む誤った書類を提出し、裁判所から時間浪費と職業への恥辱として非難されている事例が増えている。
エージェント時代がデータサイエンスに意味するもの
KDnuggets は、自律的な AI エージェントの台頭がデータサイエンスの役割やワークフローを根本的に変革し、従来の分析手法からより高度な意思決定支援へと移行させる可能性について論じている。
NVIDIA Nemotron 3 Ultra が長時間実行型エージェントの推論を高速化・効率化
NVIDIA は、長時間実行型エージェントが推論を行い、文脈を維持し、ツールを活用して効率的に動作するための新モデル「Nemotron 3 Ultra」を発表した。これにより、単発チャットボットから複雑なタスクをこなすエージェントへの進化が加速する。
Nemotron 3 Ultra が AI Gateway で利用可能に
NVIDIA が開発したオープンな混合専門家推論モデル「Nemotron 3 Ultra」が、Vercel の AI Gateway で利用可能になりました。このモデルは最大 100 万トークンのコンテキストウィンドウを持ち、長期実行型エージェントワークフローの調整に最適化されています。
モデルの中立性:AI ベンダーロックインを避ける重要性
LangChain は、特定の AI ベンダーに依存するリスク(ベンダーロックイン)を回避し、複数のモデルを柔軟に選択・切り替える「モデルの中立性」の重要性について解説している。
1 ドルあたりの知能(2 分読了)
マイクロソフトはモデルリリースカードに「平均トークン使用量」を導入し、知能の効率性を重視する指標を設けた。これにより各社はパフォーマンスとコストの両面で競争を迫られ、価格設定が完了したサポートケースなどの具体的な成果と連動することになる。
継続学習のための「睡眠」アプローチ(24 分読)
Google の研究者らは、モデルが短期間の文脈内知識を長期パラメータに統合する新手法「Sleep」を提案した。この手法は蒸留と再生成を用い、さらに強化学習による「夢見」段階で合成カリキュラムを生成して自己改善を図る。
IPO 計画を背景にアントロピックが企業パートナープログラムを強化
アントロピックは、自社 AI 製品「Claude」の第三者販売業者向けパートナープログラムを強化した。同社は IPO 申請を控え、市場に対して事業規模拡大への意欲を示す狙いがある。
「バトルシップ」ゲームを通じて AI エージェントにより良い質問をさせる方法を教える
MIT の研究者らが、不確実な環境で広範な解決策を尋ねる必要がある医療診断や科学発見の課題に対し、AI エージェントがより効果的な質問を行う能力を向上させる手法として「バトルシップ」ゲームを活用する研究を発表した。