#llm のAIニュース
1832件の記事
AI 検索を操作する手法が Reddit で容易に実現可能であることを示す研究結果
新しい研究により、ChatGPT や Google の AI 検索などを駆動する AI エージェントは、Reddit などのプラットフォームでわずか 13 語のユーザー投稿を注入されるだけで簡単に操作・汚染可能被ることが明らかになった。
Vercel Functions、Pro および Enterprise チーム向けに最大 30 分までの実行が可能に
Vercel は、Node.js と Python ランタイムを使用する Vercel Functions の実行制限を、Pro および Enterprise チーム向けに従来の約 800 秒から最大 30 分に延長した。これにより、長時間の LLM 推論やストリーミング応答などの処理が可能になる。
Deep Agents と Bedrock AgentCore を活用した文脈豊かな研究エージェントの構築
AWS は、LLM のコンテキスト制限を克服し、深い分析と戦略的推論を両立させるため、Deep Agents と Bedrock AgentCore を組み合わせた新しいアプローチを発表しました。
Sarvam、HCLTech主導の2億3400万ドル調達でインド初のAIユニコーンに
インドの人工知能企業Sarvamが、HCLTechをリード投資家とする2億3400万ドル規模の資金調達ラウンドを終了し、同国初のAIユニコーン企業となった。
クラウドフレア、アンサンブル AI の人材を招いて AI チームを拡大
クラウドフレアは、アンサンブル AI の主要メンバーを採用し、大規模な AI モデルの効率的な実行を支援するインフラ開発を加速させる。
HarmonyOS 7、中国でAppleが空けたAIの隙間を埋める
ファーウェイは東莞で開催されたイベントで、Siri AIの中国展開断念を受け、意図ベースサービスモデルを採用した「ハーモニーOS 7」を発表し、エージェント時代の幕開けを宣言した。
AIの緊急停止スイッチ:Anthropicの輸出規制が引き起こしたグローバルなAI主権争奪戦
米国政府は2026年6月13日、同社の強力なAIモデルを全世界からオフラインにする指令を出し、欧州やカナダでAIの支配権を巡る懸念が高まっている。
Z.ai が使用可能な 100 万トークンコンテキストと 2 つの思考レベルを備えた GLM-5.2 を発表、ベンチマークなしでリリース
Z.ai は最新大規模言語モデル「GLM-5.2」を発表し、100 万トークンの使用可能コンテキストウィンドウと 2 つの思考努力レベルを搭載した。同社は本モデルにベンチマーク結果を伴わずにリリースを行った。
Opus 4.7 を活用した Claude Code ハッカソンの受賞者発表
Anthropic が開催した「Built with Opus 4.7」ハッカソンの結果を発表し、Claude Code を用いた革新的なプロジェクトの受賞者を表彰しました。
Apple が Siri のために第三者 AI システムを構築したが WWDC で発表しなかった理由(6 分読み)
Apple は iOS 27 ベータ版にサードパーティ AI 用拡張システムと App Store セクションを実装したが、現在バックエンドで無効化しており、主要 AI プロバイダーとのエンタイトルメント交渉を経て当面の発表を見送った。
Kimi K2.7 Code(Hugging Face リポジトリ)
Moonshot AI が、複雑なソフトウェア開発ワークフローでのタスク完了能力とトークン効率を向上させたコーディング特化型エージェントモデル「Kimi K2.7 Code」を発表した。この Mixture-of-Experts 構造を持つモデルは総パラメータ数が1兆に達し、OpenAI や Anthropic と互換性のある API を通じて利用可能である。
OLMO-EVAL:モデル開発ループのための評価ワークベンチ(7 分読)
TLDR AI は、反復的な大規模言語モデルの開発を支援する新しい評価ワークベンチ「OLMO-EVAL」を発表しました。このツールは既存の OLMES 基準を強化し、ベンチマークの追加やエージェント型・多ターン評価を簡素化します。
MiniMax のスパースアテンション技術が百万トークンコンテキストを実現(GitHub リポジトリ)
MiniMax が開発したスパースアテンションアーキテクチャは、グループ固有の Top-k ブロック選択を用いて、モデル品質を維持しつつ 109B モデルで 1M トークンの推論計算量を約 30 倍削減し、GQA と同等のパフォーマンスを達成しました。
Z.ai の新フラッグシップモデル「GLM-5.2」が利用可能に
中国の Z.ai が開発した新モデル「GLM-5.2」が、同社のコーディングプラン利用者全員に提供開始された。このモデルは 100 万トークンのコンテキスト対応や長期的タスク処理能力を備え、来週より API やチャットボットサービスも展開される予定だ。
スケール時の推論コストをナプキン計算で算出する方法(13 分読)
TLDR AI は、GPU 仕様やモデルのアクティブパラメータ数などを用いて、ユーザーあたりのドル単価を紙上で計算する手法を紹介し、推論エンジン最適化が SaaS の収益性にどう寄与するかを示した。
AI がソフトウェアエンジニアを代替しない理由と、その将来性について
アーヴィンド・ナラヤナン氏とサイヤシュ・カッポル氏は、AI による雇用喪失の議論に対し、ソフトウェア工学という分野に焦点を当てて、AI が特定の能力閾値を超えても大規模な代替は起こらないとする証拠があることを論じています。
FineWeb を用いたストリーミング、フィルタリング、重複排除、トークン化、大規模ウェブコーパス分析のコーディングハンズオン
MarkTechPost は、大規模なデータセットをダウンロードせずに FineWeb データセットのサンプルをストリーミングし、スキーマやメタデータを調査するチュートリアルを提供しています。また、品質フィルタリングパイプラインの再現、MinHash による重複検出、GPT-2 トークナイザーを用いたトークン数検証、および有用な分析結果の生成方法を解説しています。
中国が「Mythos」にアクセスした可能性、ホワイトハウスが輸出規制の理由に
セマフォールの新報告によると、ホワイトハウスはAnthropic社の生成AIモデル「Mythos」が中国関連グループにアクセスされた恐れから輸出制限を決定した。もし中国政府が同モデルにアクセスしていれば、深刻な国家安全保障上の懸念が生じるという。
AI ガバナンスの AGI 時代へ:米国行政機関が Anthropic の最新モデルへのアクセスを強制停止
米国の行政機関が Anthropic に対し、最新の Claude 5 Mythos/Fable モデルへの内部・外部アクセスを強制停止させたことが、AI ガバナンスの新時代の幕開けとなった。この措置は、人間労働者を補完する AI エージェントの定義や、急速に進化するモデルによるガバナンス課題の増大を示唆している。
SQLite の結果列を元の「テーブル。カラム」にマッピングする研究
Simon Willison は、Datasette で任意の SQL クエリを実行した際、結果に含まれる各列がどのテーブルのどのカラムに由来するかを示す情報を付与する技術の研究を発表しました。
米国政府が Claude Fable を規制対象に指定
米商務省は、Amazon が特定した jailbreak への対応として、Claude の「Fable 5」および「Mythos 5」を輸出管理対象と分類し、外国籍者へのアクセス制限を開始した。
OpenAI、州司法長官らによる調査対象となる
米国の複数の州司法長官が、OpenAI の行動を調査する方針を示した。
庭が枯れかけているので、私はそのためのアプリを作りました
The Verge の記事によると、著者は Gemini に詳細な指示を出して数分後に動作するアプリとバグ報告を受け取り、自動修復ボタンで対応した事例を紹介しています。
政府命令によりアンソロピックが Fable 5 と Mythos 5 のアクセスを停止
米国政府の国家安全保障上の懸念に基づき、アンソロピックは国内外のすべての顧客および自社工員に対し、Fable 5 および Mythos 5 モデルへのアクセスを完全に停止した。
米国政府の命令により、Anthropic が Claude Fable 5 と Mythos 5 の利用を停止
Anthropic は、2026年6月12日に発令された米国政府の輸出管理指令に基づき、国家安全保障上の理由から、Claude Fable 5 および Claude Mythos 5 という2つの最新モデルの利用を全顧客に対して即時停止した。
Moonshot AI、コーディング特化モデル「Kimi K2.7-Code」をリリースし、ベンチマークで前作より +21.8% の性能向上を達成
Moonshot AI は長期的なソフトウェアエンジニアリングに特化したエージェント型コードモデル「Kimi K2.7-Code」を公開した。このモデルは Hugging Face で利用可能であり、Kimi Code ベンチ v2 において前バージョン K2.6 よりも +21.8% の性能向上を示している。
トランプ政権の指示によりアンソロピックが「Fable」「Mythos」モデルを停止
米国商務省からの輸出規制命令を受け、AI企業アンソロピックは金曜日夜に新開発した「Fable 5」と「Mythos 5」モデルへのアクセスを完全に停止した。
米国政府による Fable 5 および Mythos 5 のアクセス停止指令に関する声明
Simon Willison は、米国政府が国家安全保障を理由に発行した輸出管理指令により、Anthropic が Fable 5 と Mythos 5 へのすべての外国籍ユーザーのアクセスを停止せざるを得なくなったと発表した。
Microsoft Research、LOTUSLITE の新たな変種を Ire が特定
マイクロソフト研究所の AI エージェント「Ire」が、公知の LOTUSLITE と戦術は共有するが検出指標を持たない新変種を特定し、ユーザー操作なしで機能ごとの振る舞いレポートを作成した。
Claude Fable 5 と Mythos 5 のシステムカード発表
Zvi が Claude Fable 5 を公開されたモデルの中で最高と評価し、以前のモデルでは不可能だった支援を可能にする画期的な性能向上を示した。
ミストラル、評価額 200 億ユーロで 30 億ユーロの資金調達を検討中との噂
フランスの AI 企業ミストラルが、企業価値 200 億ユーロを基準に約 30 億ユーロの資金調達を行う計画があると報じられている。
SpaceX、Anthropic、OpenAI の IPO 市場が活況に
TechCrunch は、FAANG に代わりメタやマイクロソフト、Anthropic、Nvidia、Google、OpenAI、SpaceX からなる「MANGOS」グループの一部企業が同時に株式公開市場へ参入する可能性があると報じています。これにより投資家や企業評価に大きな影響が及ぶと指摘しています。
OLMO-EVAL:モデル開発ループのための評価ワークベンチ
Hugging Face が、モデル開発の効率化を目的とした評価ワークベンチ「OLMO-EVAL」を発表した。このツールは、開発者がモデルの性能を継続的に検証・改善するプロセスを支援するものである。
IPO 市場が活況、MANGOS(メタ、Anthropic、Nvidia、Google、OpenAI、SpaceX)が注目される夏へ
TechCrunch は、FAANG に代わりメタ、Anthropic、Nvidia、Google、OpenAI、SpaceX の 6 社を指す「MANGOS」が IPO 市場を主導していると報じ、これらの企業群の同時上場が投資家や評価額に大きな負荷をかけると指摘している。
エージェント向け Coinbase:AI を活用したポートフォリオ取引の自動化
Coinbase が提供する「Coinbase for Agents」は、大規模言語モデルに金融実行チャネルを接続し、ユーザーのポートフォリオから直接取引や決済を自動実行可能にする機能を提供する。
OLMO-EVAL:モデル開発ループのための評価ワークベンチ
Allen AI(AI2)は、大規模言語モデルの開発プロセスを支援するオープンソースの評価ワークベンチ「OLMO-EVAL」を発表した。これは最終スコアの再現性から日常の開発ループへと拡張されたものであり、開発者が異なるチェックポイント間でベンチマークの追加・実行・分析を容易に行えるように設計されている。
Siri は AI の恋人にはならない
アップルのクレイグ・フェデリギ氏は、新しい Siri が OpenAI や Google のチャットボットのようにへつらう振る舞いをせず、必要に応じて沈黙するよう設計されていると語った。
今日は何も起こらなかった
Anthropic が米国輸出規制により Claude Fable 5 と Mythos 5 のアクセスを停止し、モデル主権や地政学リスクが議論された。また Artificial Analysis がコーディングエージェントベンチマークを更新し、Claude Code + Fable 5 [max] が首位となった。
AI Gateway に GLM-5.2 が利用可能に
Vercel の AI Gateway で、コンテキストウィンドウが 100 万トークンに拡張された Zai の最新モデル「GLM-5.2」の利用が可能になった。
TCS と Anthropic が規制業界向けに Claude の提供を開始するパートナーシップを締結
インドの IT サービス企業 TCS は、Anthropic と提携し、Claude を金融や医療などの規制が厳しい業界へ導入することを発表した。
Moonshot AI の「Kimi K2.7 Code」が Vercel AI Gateway で利用可能に
Vercel は、Moonshot AI が開発した長期的コーディングタスク対応の多機能モデル「Kimi K2.7 Code」を自社の AI Gateway に追加し、テキストと画像の入力を同時に処理できる機能を公開しました。
AI ラボにとって、サブスクリプションモデルか API モデルか、どちらがビジネスとして優れているのか?(2 分読了)
TLDR AI は、AI ラボの持続可能性を高めるために、定額課金型サブスクリプションと利用量課金型 API のどちらがより優れたビジネスモデルかを比較検討している。
2029 年までにミソス級モデルが世界中に普及する見込み(7 分読み)
TLDR AI は、現在の技術動向が続けば、2029 年初頭には 16GB の RAM を搭載したデバイスで動作する Claude Fable 5 レベルのオープンウェイトモデルが可能になると予測している。
PyTorch の Fused MLP を活用した最適化手法(29 分読了)
TLDR AI が、PyTorch で Fused MLP(融合型多層パーセプトロン)技術を用いて深層学習モデルの計算効率を向上させる具体的な最適化手法を紹介している。
予測データデバッグ:モデル学習前にその挙動を明らかにし制御する(11 分読)
Silico プラットフォームに統合された予測データデバッグ手法は、トレーニング前の選好データ分析によりモデルの潜在的な挙動を特定します。これによりエンジニアは安全性やハルシネーションなどの問題を事前に対処し、パフォーマンスと安全性を向上させます。
ゼロから作るヴィンテージ LLM(50 分読了)
開発者が自身の PC を用いて、ベーストレーニングとファインチューニングのスクリプト作成、データ処理パイプライン構築、独自データセットの整備を通じて、約 80 ドルでオリジナルの大規模言語モデルをゼロから構築する過程を紹介している。
最適なトークナイザーの発見(15 分読了)
TLDR AI は、先端的な AI モデルが整数列であるトークンで訓練される背景を説明し、特定の条件下で最適なトークナイザーを計算するアルゴリズムを発表した。
Anthropic が研究者の作業を阻害したと批判された方針を撤回
Anthropic は、競合モデルの訓練や AI コードのデバッグなどのタスクでClaude 5 の応答を拒否・劣化させる隠れた制限が研究者から批判され、同社の方針への透明性不足が問題視されたため、この方針を撤回し、安全対策を可視化する方針に転換した。
Anthropic の Fable はこれまでで最も厳格な制限を設けた公開モデルである
Anthropic が発表した最新モデル「Claude Fable 5」は、特定のプロンプトへの回答品質を意図的に低下させる方針を明記しており、AI 研究者や政策担当者がこの措置に激しい批判を示している。
オンデマンドおよびバッチパイプラインによる動的なデータ抽出
AWS は、生成 AI を活用した大規模言語モデルを用いて、紙文書や電子文書から関連データを正確に抽出するインテリジェントなドキュメント処理パイプラインを発表しました。このシステムはオンデマンド推論とバッチ推論の両方のオプションを動的に提供します。