メインコンテンツへスキップ

#llm のAIニュース

1811件の記事

Sakana Fugu、Claude 禁止後に LiveCodeBench で 93.2 のスコアを記録しリリース

Sakana AI が開発した「Fugu」モデルが、Claude の利用制限後に公開され、LiveCodeBench ベンチマークで 93.2 という高いスコアを獲得しました。

TLDR AI·6月30日·★★★★

DeepSeek が LLM 推論を最大 85% 高速化する新フレームワーク「DSpark」をオープンソース化

DeepSeek は、LLM の推論速度を最大 85% 向上させる新フレームワーク「DSpark」を公開した。このシステムは、モデルが出力する前に推測経路を先行検証し、安全なパスのみを採用することで処理効率を高める仕組みだ。

TLDR AI·6月30日·★★★★

Devin Fusion:コストを 35% 削減しながら最前線の性能を実現

Cognition チームは、エンジニアリングチームが最も高価なモデルをすべてのタスクに使用することが持続不可能である現状に対し、既存のツールでは実用的なコード生成ができない問題を解決するため、Devin Fusion を発表しました。これはコストを 35% 削減しながら最前線の性能を提供する新しいアプローチです。

TLDR AI·6月30日·★★★★

Hugging Face モデルページに過去のすべての評価結果を表示

Hugging Face がモデルページの機能強化を行い、過去に実施されたあらゆる評価結果をユーザーが閲覧可能にした。これにより、各モデルの性能比較や信頼性確認が容易になる。

Hugging Face Blog·6月30日·★★★★

コーディングエージェントの Human-in-the-Loop 判断パターンを計測して確認・介入のポイントを見直す

CyberAgent Developers Blog·6月30日·★★★★

Understanding AI で広告掲載すべき理由を示す 7 つのグラフ

ニュースレター「Understanding AI」は過去 1 年間で読者が約 20 万人増加し、現在は 273,000 人に達した。運営者は無料読者向けに広告掲載を開始する方針を表明し、倫理的観点から自社が扱う企業への広告は受け付けないと明言している。

Understanding AI·6月30日

Anthropic とカリフォルニア州政府が契約を結び、Claude を半額で使用可能に

AI企業 Anthropic はカリフォルニア州と契約を結び、同州政府が AIモデル「Claude」を通常価格の半額で利用できるようにする合意に至った。

TechCrunch AI·6月30日·★★★★

AWS で構築した行レベルセキュリティを備えたマルチテナント LLM アナリティクスとセキュアエージェントの仕組み

PAR テクノロジー社は、AWS を活用して自然言語から SQL を生成する自己サービス分析用エージェントを開発し、技術背景に関わらずビジネスユーザーが安全にデータを活用できる環境を構築した。

AWS Machine Learning Blog·6月30日·★★★★

誰もが利用する AI リーダーボード「Arena」が売上100億ドルの事業に成長

AI 評価プラットフォーム「Arena」が、業界標準として広く利用されるようになり、企業価値が100億ドル規模のビジネスへと拡大したことを発表しました。

TechCrunch AI·6月30日·★★★★

Amazon Bedrock AgentCore Observability を用いたプロダクションエージェントのデバッグ

AWS は、標準的なログでは捉えきれない推論ループや誤ったツール選択などの問題を検出するため、Amazon Bedrock AgentCore Observability の新機能を発表した。

AWS Machine Learning Blog·6月30日·★★★★

GitHub Copilot で Claude Opus 4.8 の高速モードがプレビュー開始

GitHub Copilot が、Claude Opus 4.8 の高速モードをプレビューとして提供を開始しました。このモードは同等の知能を維持しつつ出力速度を大幅に向上させ、インタラクティブなコーディングやエージェントワークフローに適しています。

GitHub Changelog·6月30日·★★★★

Ornith-1.0:エージェント型コーディングのための自己構築型LLM

DeepReinforceがMITライセンスで公開した新モデル「Ornith-1.0」は、Gemma 4やQwen 3.5を基盤とし、コードベンチマークで同等サイズのオープンソースモデル中最も高い性能を達成した自己構築型LLMである。

Simon Willison Blog·6月30日·★★★★

Deep Agents に動的サブエージェントを導入

LangChain は、ツール呼び出しではなくコードを用いて AI エージェントを大規模に調整する「動的サブエージェント」機能を Deep Agents に導入した。これにより、複雑なマルチステップ処理の信頼性と網羅性が向上する。

LangChain Blog·6月30日·★★★★

議員らが AI 企業による健康データ販売を禁止する法案を提案

エリザベス・ワーレン上院議員とメアリー・ゲイ・スキャンロン下院議員が、AI チャットボットへの入力を含む米国民の健康情報や位置情報のデータブローカーへの販売を禁止する新法案を提出する予定である。

The Verge AI·6月30日·★★★★

WSJ の「中国が Anthropic に追いついた」という主張は明らかなデマであるとの指摘

Zvi氏(The Zvi)は、ウォール・ストリート・ジャーナルが発表した「中国がサイバーセキュリティ分野で Anthropic と同等の水準に達し、AI 競争をリセットした」という報道について、事実と異なる誤った見出しであり、根拠のない誇張であると強く批判している。

The Zvi·6月30日·★★★★

米国に事実上のモデルライセンス制度が導入される

トランプ政権がアンソロピックの強力なモデルを市場から撤退させた件を受け、米政府が開発企業に対してモデルのライセンス管理を事実上義務付ける新たな政策方針を示した。

Understanding AI·6月29日·★★★★

RAG パイプラインは役に立たない可能性が高い。より良い代替案とは

KDnuggets は、従来の RAG(検索拡張生成)パイプラインが多くの場合無効であるとし、その課題を解決する新たな代替アプローチを紹介している。

KDnuggets·6月29日·★★★★

HP、OpenAI Frontier を活用して企業ワークフローを加速

ハードウェアメーカーの HP は、2026 年 2 月にテストを開始した OpenAI Frontier の統合をグローバル事業に拡大し、ソフトウェアエンジニアリングやサイバーセキュリティ対策における業務効率化と出力加速を実現している。

AI News·6月29日·★★★★

ウィンブルドン、ライブ試合中継にIBMのAIツールを追加

全イングランド・ローンテニスクラブは、IBMとの協力により、ウィンブルドンのデジタルプラットフォームにAI機能を実装した。新機能としてチャットアシスタントと「キーモーメント」がアプリや公式サイトで提供される。

AI News·6月29日·★★★★

xFusion がエッジワークステーションから液体冷却データセンターまで拡張可能なエンタープライズ AI を展開

xFusion は ISC 2026 で、物理的制約やデータセキュリティを考慮した 4 つのハードウェア層からなるスケーラブルなモデルを発表し、エッジ端末から液体冷却データセンターまでの企業向け AI 計算能力の拡張を実現しました。

AI News·6月29日·★★★★

Amazon Bedrock および Google Cloud 向け Claude アプリゲートウェイの導入発表

Anthropic が、Amazon Bedrock と Google Cloud のプラットフォーム上で Claude アプリを直接利用・管理するためのゲートウェイ機能を正式に発表した。これにより、各クラウド環境での Claude モデルの利用がさらに容易になる。

Claude Blog·6月29日·★★★★

Microsoft Foundry における Claude の一般提供開始

Anthropic は、Microsoft Foundry プラットフォーム上で自社の AI モデル「Claude」の利用を一般公開した。これにより、企業ユーザーは同プラットフォーム内で Claude を直接利用できるようになった。

Claude Blog·6月29日·★★★★

Google、NotebookLM でノートブックコレクションのテストを開始

Google が AI ノートブックツール「NotebookLM」において、複数のノートブックを整理・管理する機能である「コレクション」のテストを実施している。

TLDR AI·6月29日

Google、Meta の Gemini 利用を制限(2 分読了)

Google が Meta 社が開発する AI モデル「Gemini」の利用を制限すると発表した。これは Google と Meta の間で技術競争やプラットフォームの独占性を巡る対立が顕在化した動きである。

TLDR AI·6月29日·★★★★

ムスク氏、Grok 4.5 がプライベートベータ版として SpaceX および Tesla で稼働中と発表

イーロン・ムスク氏は、1.5T V9 ファウンデーションモデルを基盤とし Cursor データを追加トレーニングした「Grok 4.5」が、SpaceX と Tesla でプライベートベータ版として運用されていると明かしました。初期評価では Opus に匹敵する性能を示し、強化学習による改善が続いています。

TLDR AI·6月29日·★★★★

GPT-5.6 Sol, Terra, Luna(39 分読み)

TLDR AI が、OpenAI の最新モデル「GPT-5.6」の Sol、Terra、Luna という 3 つのバリエーションについて解説する記事を紹介しています。具体的な技術詳細や機能変更は本文抜粋からは確認できません。

TLDR AI·6月29日

リーンソフトウェアのスケーリング法則(17 分読)

TLDR AI は、プログラミング言語「Lean」が既存コードベースでは他の言語より不利だがスケーリング特性に優れ、将来的には大規模なプログラム正誤性の向上で勝利する可能性があると分析した。

TLDR AI·6月29日·★★★★

凍結されたマルチトークン予測を用いたPixel上でのGemini Nanoモデルの高速化

Googleの研究チームは、モバイル環境向けに効率を最大化する新アーキテクチャを開発し、既存の「凍結」状態にあるGemini Nano v3モデルにマルチトークン予測機能を組み込むことで、ポケットに入る大規模言語モデルのパフォーマンス向上を実現した。

TLDR AI·6月29日·★★★★

コーディングエージェントの実行過程を検証する Agent as a Judge をフィードバックループに導入する

CyberAgent Developers Blog·6月29日·★★★★

ジョナ・ウデルの発言を引用:「人間がループに組み込まれる」表現への異議とエージェントの役割転換

ブロガーのサイモン・ウィリソンは、ジョナ・ウデルの投稿を引用し、「人間がループに組み込まれる」という表現が機械への権限委譲を意味すると批判。ウデル氏は、ループは人間の側で維持し、エージェントをチームの一員として招聘する姿勢の転換を提案している。

Simon Willison Blog·6月29日·★★★★

中国の Z.ai がサイバーセキュリティ分野で Mythos に匹敵すると主張

中国の智譜 AI(Zhipu AI)が公開重みモデル GLM-5.2 をリリースし、一部の研究者がバグ発見やサイバーセキュリティの特定シナリオにおいて、同社の Mythos と同等の性能を有すると主張している。

The Verge AI·6月29日·★★★★

アーティファクト22:Zyphra、Cohere、Poolsideがエコシステムの多様化を拡大

Interconnectsは、オープンモデルリリースの動向として、中国勢中心だった状況から世界中のニッチ企業を含む多様な組織が増加し、エコシステムが広がっていることを指摘した。

Interconnects·6月29日·★★★★

HP インク社が OpenAI と戦略的パートナーシップ「Frontier」を発表

HP インク社は、OpenAI と共同で「Frontier」と名付けた戦略的パートナーシップを正式に開始した。両社は企業向け AI 統合や次世代ワークスペースの構築に向けた協力を進める方針である。

OpenAI News·6月29日·★★★★

GPT-5.6:システムカードの発表

OpenAI が公開した GPT-5.6 のシステムカードは、同社が「アメリカ次期トップモデル候補」と位置づける新モデルについて示唆している。この文書によると、GPT-5.6-Sol は前世代の GPT-5.5 より大幅に改善されたものの、最高峰とされる Mythos にはまだ及ばないと評価されている。

The Zvi·6月28日·★★★★

パリスエイズ火災裁判で検察が ChatGPT のログを証拠として使用

カリフォルニア州の検察は、2025 年のパリスエイズ山火事事件でジョナサン・リンダークニヒト被告の有罪立証のため、彼の iPhone の位置情報や目撃者の証言に加え、ChatGPT の利用ログを証拠として提出した。

The Verge AI·6月28日·★★★★

Liquid AI、オンデバイス推論に対応した最小モデル「LFM2.5-230M」を llama.cpp や MLX などと共に公開

Liquid AI は、スマートフォンやロボットでのエージェントタスク実行を目的とした同社最小型のオープンウェイトモデル「LFM2.5-230M」を発表し、オンデバイス推論に対応する複数のフレームワークとの互換性を確保した。

MarkTechPost·6月28日·★★★★

マーガレット・アトウッド氏、AI の問題は「ゴミを入れればゴミが出る」と指摘

『侍女の物語』著者のマーガレット・アトウッド氏がポルトガルでのインタビューで、AI 技術には入力データの質が重要であり、不適切なデータを入力すれば不適切な結果しか得られないと語った。

The Verge AI·6月28日

Anthropic の輸出規制継続を受け、アジアの AI スタートアップが Mythos に似たモデルを公開

Anthropic による輸出規制の影響が続く中、複数のアジア地域に拠点を置く AI スタートアップが、同社の Mythos モデルに匹敵する性能を持つ新しい大規模言語モデルを発表した。

TechCrunch AI·6月27日·★★★★

ローカルコーディングエージェントの構築方法

Sebastian Raschka は、オープンソースツールとオープンウェイト大規模言語モデルを使用して、ローカルのコーディングエージェントをセットアップする方法に関するチュートリアルを提供しました。

Sebastian Raschka·6月27日·★★★★

[AINews] OpenAI、GPT-5.6 Sol/Terra/Luna を信頼できるパートナーに限定して発表

OpenAI は、Anthropic と Fable の交渉や Mythos 規制の緩和を背景に、GPT-5.6 シリーズ(Sol/Terra/Luna)を発表したが、アクセスは信頼できるパートナーに限定された。同モデルは特定のコーディングエージェントタスクにおいて Mythos を上回る性能を示す。

Latent Space·6月27日·★★★★

トランプ政権、Anthropic の「Mythos」を米国の 100 社以上で利用可能に発表

トランプ政権は、AI 企業 Anthropic が開発した生成 AI モデル「Mythos」を、米国政府機関および民間企業 100 社以上で使用可能にする方針を発表しました。

TechCrunch AI·6月27日

Anthropic の「Mythos 5」が政府との交渉を経て一部組織向けに再稼働

トランプ政権との2週間にわたる交渉の末、Anthropic が開発した AI モデル「Mythos 5」が、政府からの通達に基づき限定された組織向けに運用を再開した。ただし一般公開用の「Fable 5」とは区別されている。

The Verge AI·6月27日·★★★★

NVIDIA Open-SWE-Traces を用いた教師あり微調整データの構築:軌道解析、パッチ分析、トークン予算、ツール使用指標

MarkTechPost は、Hugging Face からストリーミングされる NVIDIA の Open-SWE-Traces データセットを Google Colab で活用し、エージェント型ソフトウェアエンジニアリングの軌道を微調整用に準備する手法を解説している。

MarkTechPost·6月27日·★★★★

Dean W. Ball の発言を紹介:業界の現状は深刻

Simon Willison は、Dean W. Ball の指摘を引用し、最先端モデルの開発コストが高く回収期間が短いこと、競争激化で利益率が圧迫されるなど、業界の悪化した状況を説明した。

Simon Willison Blog·6月27日·★★★★

LLM は学習曲線がないという考えへの反論

Simon Willison が Timothy B. Lee の発言を紹介し、大規模言語モデル(LLM)を使ってもスキルや学習が必要ないとする考えは誤りだと指摘した。

Simon Willison Blog·6月27日

NYT、OpenAI向けに著作権侵害用スーパーコンピュータを構築したとしてMicrosoftを非難

ニューヨーク・タイムズは裁判所提出書類で、マイクロソフトが世界有数の高性能スーパーコンピュータを構築し、同社に対して自社の著作物を盗むよう積極的に促したと主張し、OpenAIに対する著作権訴訟の補正を提案した。

Ars Technica AI·6月27日·★★★★

OpenAI、GPT-5.6 をソル・テラ・ルナの 3 つのティアでプレビュー開始:階層化モデルと新推論モード、アクセスは限定

OpenAI が次世代モデルシリーズ GPT-5.6 の一部を限定プレビューし、フラッグシップの「Sol」、日常業務向け「Terra」、低コスト高速版「Luna」の 3 つのティアを発表した。米国政府への事前共有を経て、信頼できるパートナーに API と Codex で提供を開始する。

MarkTechPost·6月27日·★★★★★

2,000人が私のAIアシスタントのハッキングを試みた結果

フェルナンド・イララザバル氏が運営する「OpenClaw」テストインスタンスに対し、6,000回の試みと500ドルのトークン使用が行われたが、秘密情報の漏洩は発生しなかった。

Simon Willison Blog·6月27日·★★★★

OpenAI、政府の要請により GPT-5.6 の展開を制限、規制が常態化すべきではないと表明

OpenAI は政府からの要請を受け、GPT-5.6 の展開範囲を制限した。同社はこうした規制措置が業界の常態化すべきではないと主張している。

TechCrunch AI·6月27日·★★★★

Deep Agents との連携によるプロンプトキャッシング

LangChain が、Deep Agents を活用してプロンプトキャッシングを実現する機能を公開した。これにより、推論コストとレイテンシを削減できる。

LangChain Blog·6月27日·★★★★