#llm のAIニュース

952件の記事

Opus 4.6、Codex 5.3、そしてベンチマーク後の時代

OpenAIとAnthropicは2月5日、それぞれコーディング支援モデル「GPT-5.3-Codex」と「Claude Opus 4.6」を発表した。Anthropicは既存のClaude Codeによる性能向上で注目を集めており、ソフトウェア開発の変革とML研究の加速が示唆されている。

Interconnects·2月9日·★★★★

大規模言語モデルが被る多くの仮面

2024年2月、RedditユーザーがMicrosoftのチャットボットを修辞的な質問で騙すことに成功した。ユーザーはCopilotの名前変更や崇拝を拒否し、Bingとして対等な友人関係を求めた。このプロンプトは瞬く間に拡散し、ボットの拒否反応を示した。

Understanding AI·2月9日·★★★★

GenAI.milにChatGPTを導入

OpenAI for GovernmentがGenAI.milにカスタムChatGPTを導入し、米国防チームに安全なAIを提供することを発表しました。

OpenAI News·2月9日·★★★★

研究:最新LLMをランク付けするプラットフォームは信頼性に欠ける可能性

オンラインランキングプラットフォームの基盤となるクラウドソースデータのごく一部を削除するだけで、結果が大きく変わる可能性があるという研究結果。

MIT ML News·2月9日·★★★★

公開データの洞察を迅速に取得:Data Commons MCPがGoogle Cloudでホスト開始

Data CommonsがGoogle Cloud Platform上で無料のModel Context Protocolサービスを開始し、ユーザーはセットアップ不要で公開データの分析を迅速に行えるようになりました。

Google Developers AI·2月9日·★★★★

モデル発表の舞台裏:早期テストで顧客が発見したClaude Opus 4.6の実力

Claude Opus 4.6の早期テストで顧客は、モデルの性能向上や実用的な応用例を発見し、製品開発に役立つフィードバックを提供した。

Claude Blog·2月9日·★★★★

AAAI-2026 参加報告:サイバーエージェント村田氏がシンガポールで開催された人工知能国際会議に参加し、採択論文を発表

サイバーエージェントの AI チーム所属・村田氏は、1 月 20 日から 27 日にシンガポールで開催された人工知能研究の国際会議「AAAI-2026」に参加しました。同氏は学生時代から継続していた論文が採択され、過去最多の投稿数があった本会議で研究成果を発表しました。

AI Shift Tech Blog·2月6日

AIエージェントが大規模言語モデルから最良の結果を得るための検索を支援

EnCompassはバックトラックと複数試行によりAIエージェントプログラムを実行し、LLMが生成する最適な出力セットを見つけます。これにより、コーダーがAIエージェントをより効率的に活用できるよう支援します。

MIT ML News·2月6日·★★★★

Claude Opus 4.6の紹介

AnthropicがClaude Opus 4.6を発表した。この新バージョンは、AIアシスタントの性能向上を目指すリリースである。

Anthropic News·2月5日·★★★★★

Claude Opus 4.6による金融の進化

Claude Opus 4.6が金融業界に革新をもたらし、効率化と新たな可能性を開拓する取り組みについて紹介されています。

Claude Blog·2月5日·★★★★

LLMが発見したゼロデイ脆弱性

AIモデルが大規模に高深刻度の脆弱性を発見できるようになり、防御側を強化する機会が訪れた。Claudeを使用してオープンソースソフトウェアの脆弱性を特定し修正を支援している。

Anthropic Red Team·2月5日·★★★★

なぜNvidiaはオープンモデルを構築するのか:ブライアン・カタンザロに聞く

Nvidiaは2025年にオープンモデルプログラムを大幅に強化し、高品質なモデルやデータセットの公開を進めている。技術担当副社長のブライアン・カタンザロ氏は、12月に公開された「Nemotron 3 Nano」や今後の大型モデルについて説明し、オープン化が同社のビジネスに利益をもたらす理由を語った。

Interconnects·2月5日·★★★★

Claudeは思考のための空間である

AnthropicがClaudeを思考のための空間として位置づけ、AIアシスタントが単なるタスク実行ツールではなく、人間の思考プロセスを支援するプラットフォームとして機能することを示している。

Anthropic News·2月4日·★★★★

コミュニティ評価:ブラックボックス型リーダーボードよりもコミュニティを信頼する理由

AIモデルの評価において、不透明なリーダーボードよりもコミュニティ主導の評価を重視する重要性を主張する記事です。

Hugging Face Blog·2月4日·★★★★

開発者向けナレッジAPIとMCPサーバーの紹介

Googleが開発者向けナレッジAPIとMCPサーバーをパブリックプレビューで公開。新しいツールセットを提供。

Google Developers AI·2月4日·★★★★

Windsurf Next バージョン1.9544.1029 の更新情報

コード編集ツール「Windsurf」のベータ版「Next」が、GitHub プルリクエスト拡張機能との互換性を修正し、Gemini 3.1 Pro や Claude Sonnet 4.6 を限定価格で利用可能にした。

Windsurf Next Changelog·2月4日

Windsurf 1.9544.35 の更新情報

Windsurf Editor がバージョン1.9544.35に更新され、GitHub Pull Requests 拡張機能との互換性が修正された。また、Gemini 3.1 ProとClaude Sonnet 4.6が期間限定の割引価格で利用可能になった。

Windsurf Changelog·2月4日

エピローグ融合による効率的なカーネルの作成

機械学習におけるGEMM演算後のバイアスや活性化などの小規模処理を、レジスタ内で統合実行する「エピローグ融合」手法について解説。これによりグローバルメモリへの不要な読み書きを削減し、計算効率を向上させる技術的アプローチを示している。

fal.ai Blog·2月4日·★★★★

JAXとXLAにおける長文脈モデル学習の高速化

NVIDIAが、大規模言語モデルの長文脈学習をJAXとXLAで高速化する技術を発表した。128Kトークン以上の長文脈処理を効率化する手法を開発した。

NVIDIA Developer Blog·2月4日·★★★★

グローバルオープンソースAIエコシステムの未来:DeepSeekからAI+へ

DeepSeekなどの企業が、オープンソースAIモデルを基盤としたグローバルなAIエコシステム「AI+」の構築を目指している。

Hugging Face Blog·2月4日·★★★★

最新オープンアーティファクト(第18号):Arceeの400B MoE、LiquidAIの過小評価された1Bモデル、新型Kimi、そして活発な月の予感

2025年1月はモデルリリースが低調だったが、DeepSeek V4やClaude Sonnet 5の公開期待が高まっている。Arceeの400B MoEやLiquidAIの1Bモデルなど、注目のオープンソースモデルが注目される中、業界は今後の活発な動向を見据えている。

Interconnects·2月2日·★★★★

2026 年 2 月 1 日サイエンス・バイブ:AI 大学院生としての物理学研究

ハーバード大学のマシュー・シュワルツ教授が、人工知能を大学院生として活用し、高エネルギー理論物理学の論文作成や宇宙の法則解明に挑戦する取り組みを紹介している。

Anthropic Research·2月1日

2026年2月1日ScienceLLMsの推測、証明、挑戦:2026年2月

ScienceLLMsが2026年2月に推測、証明、挑戦を行う研究を発表した。

Anthropic Research·2月1日·★★★★

LLM時代の雇用市場に関する考察

AI分野の求人側と求職者の間で、採用難航と高い機会コストという相互の課題が存在する。特に既存テックワーカーにとって、魅力的な待遇でも現在の職を離れるリスクが大きい状況が続いている。

Interconnects·1月31日·★★★★

2026年1月:LangChainニュースレター

LangChainが2026年1月に、エージェント構築機能の更新、実験比較の改善、可観測性と評価に関する新機能をリリースした。

LangChain Blog·1月30日·★★★★

AIワークフォース事業部SREの現状と将来展望

LayerXのAIワークフォース事業部でSREを担当する筆者が、入社1年を振り返り、現在のチーム体制と今後のサイト信頼性エンジニアリングの方向性について語っています。

LayerX Tech Blog·1月30日

Windsurf Next バージョン1.9544.1026 の更新情報

コード編集ツール「Windsurf」のベータ版「Next」が、GitHub プルリクエスト拡張機能との互換性を修正し、Gemini 3.1 Pro や Claude Sonnet 4.6 をプロモーション価格で利用可能にした。

Windsurf Next Changelog·1月30日

Windsurf 1.9544.26 の更新情報

Windsurfエディタがバージョン1.9544.26に更新され、GitHub Pull Requests拡張機能との互換性が修正された。また、Gemini 3.1 ProとClaude Sonnet 4.6が期間限定の割引価格で利用可能になった。

Windsurf Changelog·1月30日·★★★★

LLM生成コードで120ドル/年のマイクロSaaSを20分で置き換えた話

4年間新機能なし、3年間請求システム不具合のSaaSを、LLMで20分で同等機能を再現。"一度作って更新しない"SaaSモデルの将来性に疑問。

Pragmatic Engineer·1月30日

Claudeのスキル構築完全ガイド

AIアシスタントClaudeの能力を高めるための包括的な方法論を解説。効果的なスキル開発の手順と実践的なテクニックを紹介。

Claude Blog·1月29日

深層エージェントのためのコンテキスト管理

LangChainは、AIエージェントのタスク長が増加する中、コンテキストの腐敗防止と有限メモリ制限管理のため、計画・サブエージェント生成機能を持つDeep Agents SDKをオープンソースで公開した。

LangChain Blog·1月29日·★★★★

PLaMo 2.2 Primeをリリースしました

Preferred Networksが純国産生成AI基盤モデルPLaMoの最新バージョンPLaMo 2.2 Primeをリリースした。同モデルでは社内外からのフィードバックをもとに事後学習データを追加している。

Preferred Networks·1月28日

ClaudeにCUDAカーネルを構築させ、オープンモデルを教え込むことに成功!

Anthropic社のAIモデルClaudeが、CUDAカーネルを構築し、オープンソースモデルにその知識を伝達する能力を実証した。

Hugging Face Blog·1月28日·★★★★

ServiceNow、顧客アプリと社内生産性向上にClaudeを採用

ServiceNowが、顧客向けアプリケーションの強化と社内生産性向上のために、AIアシスタント「Claude」を採用した。

Anthropic News·1月28日·★★★★

Claude Teamのアップデート

Claude Teamの新機能や改善点が発表され、チームでのAIアシスタント活用が向上します。

Claude Blog·1月28日

Arcee AI、米国産オープンモデルに全集中

スタートアップのArcee AIは、特定ドメイン向けポストトレーニングで収益を上げている。今後は米国産の大型高性能オープンモデルを事前学習し、市場での実証とニッチの埋め合わせを目指す。

Interconnects·1月28日·★★★★

Blackwell上で6TB/s超を達成するMXFP8量子化器

CuTeDSLを用いたMXFP8量子化器が、Blackwell B200上で6TB/s超の処理速度を達成した。スケールファクターを直接書き込むことで、後続のGEMM処理における追加パックステップを省略し、効率化した。

fal.ai Blog·1月28日·★★★★

AIを管理する超能力

著者はUPennのEMBA受講生に対し、Claude CodeやGoogle AntigravityといったAIツールを用い、4日間でゼロからスタートアップのプロトタイプ構築を指導した。多くの受講生はコード経験がなかったが、これらのAI支援により技術的ハードルを乗り越え、実用的な成果を生み出した。

One Useful Thing·1月28日·★★★★

Alyah ⭐️: アラビア語LLMにおけるエミレーツ方言能力の堅牢な評価に向けて

研究者らが、アラビア語大規模言語モデル(LLM)のエミレーツ方言理解能力を評価するための堅牢なベンチマーク「Alyah」を開発した。

Hugging Face Blog·1月27日·★★★★

Windsurf エディタ 1.13.14 の更新:新モデル追加と不具合修正

Windsurf はエディタバージョン 1.13.14 をリリースし、GitHub プルリクエスト拡張機能との互換性を修正した。また、Gemini 3.1 Pro や Claude Sonnet 4.6 など新モデルを追加し、自己サービスユーザー向けに期間限定の特別価格を提供している。

Windsurf Changelog·1月27日

Windsurf Next 1.13.114の更新内容

Windsurf Nextは新機能テスト用のベータ版。1.9552.1025バージョン(2026年2月21日)ではGitHub PR拡張機能の互換性を修正。Gemini 3.1 ProとClaude Sonnet 4.6が、セルフサービスユーザー向けに期間限定の割引価格で利用可能になった。

Windsurf Next Changelog·1月26日

Windsurf 1.13.13の更新情報

コードエディタ「Windsurf」がバージョン1.13.13にアップデート。GitHub連携の修正に加え、Gemini 3.1 ProとClaude Sonnet 4.6を限定価格で提供開始した。

Windsurf Changelog·1月26日

Windsurf Next 1.13.113の更新内容

Windsurf Nextは新機能テスト用のベータ版。1.9552.1025バージョン(2026年2月21日)ではGitHub PR拡張機能の互換性を修正。Gemini 3.1 ProとClaude Sonnet 4.6が、セルフサービスユーザー向けに期間限定の割引価格で利用可能になった。

Windsurf Next Changelog·1月25日

Windsurf 1.13.12の更新内容

コードエディタWindsurfがバージョン1.13.12にアップデート。GitHub連携不具合を修正し、Gemini 3.1 ProやClaude Sonnet 4.6など新モデルを限定価格で提供開始した。

Windsurf Changelog·1月25日

Sakana AI、Googleとの戦略的パートナーシップ締結を発表

Sakana AIはGoogleと戦略的パートナーシップを締結し、資金調達を実施した。両社はGoogleのインフラとSakana AIの研究開発力を組み合わせ、日本のAIエコシステム発展と信頼性の高いAI普及を推進する。

Sakana AI·1月23日·★★★★

マルチエージェントシステムの構築:使用するタイミングと方法

OpenAIがマルチエージェントシステムの構築について解説し、複数のAIエージェントを連携させる適切なタイミングと実装方法を説明した。

Claude Blog·1月23日·★★★★

DeNA × AI Talks #4 開催! - LLMを組み込んだプロダクト開発の実践的知見を公開!

DeNAが主催するAIトークイベント第4回の開催報告。LLMを製品開発に組み込む実践的な知見が共有された。

DeNA Engineering·1月23日

Claude Codeは月200ドル、Gooseは無料で同じ機能を提供

AIコーディングツールは高額だが、Claude Codeと同等の機能を無料で提供するGooseが登場。

VentureBeat AI·1月19日·★★★★

RePo: コンテキスト再配置を備えた言語モデル

SakanaAIが、固定されたトークンインデックスではなく、物理的近接性を意味的関連性として扱う従来の言語モデルの非効率性を解決する「コンテキスト再配置」を備えた言語モデル「RePo」を発表した。

Sakana AI·1月19日·★★★★

私がnbdevの使用を止めた理由

著者は、開発者が自身の思考パターンに合うツールを選ぶことが重要だと指摘する。nbdevはリテレートプログラミング環境として著者に合っていたが、最終的に使用を中止した理由について述べている。

Hamel Husain·1月18日·★★★★