#llm のAIニュース

413件の記事

Claude Sonnet 4.6 100万トークン対応

Claude Sonnet 4.6がWindsurfで利用可能に、100万トークンコンテキストをサポート

X: Windsurf·2月18日

動的フィルタリングによるWeb検索の精度と効率の向上

動的フィルタリング技術を活用することで、Web検索の精度と効率を同時に高める方法について説明しています。

Claude Blog·2月17日·★★★★

Claude Sonnet 4.6の紹介

Claude Sonnet 4.6の新バージョンがリリースされました。AIモデルの性能向上と新機能を提供します。

Anthropic News·2月17日·★★★★

GLM-5とMinimax M2.5提供開始

WindsurfでGLM-5とMinimax M2.5が利用可能に、期間限定割引も実施

X: Windsurf·2月17日

先週のAIニュース #335 - Opus 4.6、Codex 5.3、Gemini 3 Deep Think、GLM 5、Seedance 2.0

AI週報の最新号では、Opus 4.6、Codex 5.3、Gemini 3 Deep Think、GLM 5、Seedance 2.0など、主要AIモデルのアップデートが多数報告されました。

Last Week in AI·2月16日·★★★★

Anthropicがバンガロールオフィスを開設し、インド全域で新たなパートナーシップを発表

AI企業Anthropicがインド・バンガロールにオフィスを開設し、インド全域で新たなパートナーシップを結ぶことで、同国での事業拡大を図っています。

Anthropic News·2月16日·★★★★

GPT-5.2が理論物理学で新たな成果を導出

GPT-5.2がグルーオン振幅の新公式を提案し、OpenAIと学術協力者が正式に証明・検証した。

OpenAI News·2月13日·★★★★

社会科学研究のスケーリング

OpenAIの新オープンソースツールキットGABRIELは、GPTを活用して質的テキスト・画像を量的データに変換し、社会科学者が大規模な研究分析を可能にする。

OpenAI News·2月13日·★★★★

GPT-5.3-Codex-Spark公開

Windsurf Arena ModeでGPT-5.3-Codex-Sparkのプレビュー版が利用可能に

X: Windsurf·2月13日

GPT-5.3-Codex-Sparkの紹介

初のリアルタイムコーディングモデルGPT-5.3-Codex-Sparkを発表。生成速度15倍、128kコンテキストを実現し、ChatGPT Proユーザー向けに研究プレビュー開始。

OpenAI News·2月12日·★★★★

Windsurf 1.9552.21

Cascadeの改善により、計画モードからコードモードへの自動切り替え、.agents/skillsディレクトリからのスキル読み込み、トリガーされたルールの追跡機能が追加されました。

Windsurf Changelog·2月12日·★★★★

Arenaモード公開リーダーボード

AIモデル性能ランキング公開、OpusとSonnetが上位

X: Windsurf·2月12日

エージェント使用量の増加

個別プランに含まれるエージェントの使用量が増加されました。

Cursor Blog·2月11日

GenAI.milにChatGPTを導入

OpenAI for GovernmentがGenAI.milにカスタムChatGPTを導入し、米国防チームに安全なAIを提供することを発表しました。

OpenAI News·2月9日·★★★★

公開データの洞察を迅速に取得:Data Commons MCPがGoogle Cloudでホスト開始

Data CommonsがGoogle Cloud Platform上で無料のModel Context Protocolサービスを開始し、ユーザーはセットアップ不要で公開データの分析を迅速に行えるようになりました。

Google Developers AI·2月9日·★★★★

モデル発表の舞台裏:早期テストで顧客が発見したClaude Opus 4.6の実力

Claude Opus 4.6の早期テストで顧客は、モデルの性能向上や実用的な応用例を発見し、製品開発に役立つフィードバックを提供した。

Claude Blog·2月9日·★★★★

AAAI-2026 参加報告

AI Shiftの村田が、2026年1月に開催された第40回AAAI人工知能国際会議に参加した経験を共有しています。

AI Shift Tech Blog·2月6日

Claude Opus 4.6による金融の進化

Claude Opus 4.6が金融業界に革新をもたらし、効率化と新たな可能性を開拓する取り組みについて紹介されています。

Claude Blog·2月5日·★★★★

LLMが発見したゼロデイ脆弱性

AIモデルが大規模に高深刻度の脆弱性を発見できるようになり、防御側を強化する機会が訪れた。Claudeを使用してオープンソースソフトウェアの脆弱性を特定し修正を支援している。

Anthropic Red Team·2月5日·★★★★

コミュニティ評価:ブラックボックス型リーダーボードよりもコミュニティを信頼する理由

AIモデルの評価において、不透明なリーダーボードよりもコミュニティ主導の評価を重視する重要性を主張する記事です。

Hugging Face Blog·2月4日·★★★★

開発者向けナレッジAPIとMCPサーバーの紹介

Googleが開発者向けナレッジAPIとMCPサーバーをパブリックプレビューで公開。新しいツールセットを提供。

Google Developers AI·2月4日·★★★★

Windsurf Next 1.9544.1029

WindsurfでClaude Opus 4.6(高速モード)が研究プレビューとして利用可能に。2月16日までセルフサービスユーザー向けに限定プロモーション価格を提供。

Windsurf Next Changelog·2月4日

Windsurf 1.9544.35

Windsurfの最新アップデートで、GPT-5.3-Codex-SparkがArena Modeに追加され、Claude Opus 4.6(高速モード)が研究プレビューで利用可能になりました。

Windsurf Changelog·2月4日

JAXとXLAにおける長文脈モデル学習の高速化

NVIDIAが、大規模言語モデルの長文脈学習をJAXとXLAで高速化する技術を発表した。128Kトークン以上の長文脈処理を効率化する手法を開発した。

NVIDIA Developer Blog·2月4日·★★★★

2026年2月1日ScienceVibe Physics:AI大学院生

ScienceVibe PhysicsがAIを大学院生として活用する取り組みを発表した。同社はAIが物理学研究の補助的役割を果たすことを目指している。

Anthropic Research·2月1日

2026年2月1日ScienceLLMsの推測、証明、挑戦:2026年2月

ScienceLLMsが2026年2月に推測、証明、挑戦を行う研究を発表した。

Anthropic Research·2月1日·★★★★

AIワークフォース事業部SREの現状と将来展望

LayerXのAIワークフォース事業部でSREを担当する筆者が、入社1年を振り返り、現在のチーム体制と今後のサイト信頼性エンジニアリングの方向性について語っています。

LayerX Tech Blog·1月30日

Windsurf Next 1.9544.1026

バグ修正と改善:アナウンスポップアップと通知のUIスタイルを改善し、バトルグループ選択時にモデルピッカーを閉じる。

Windsurf Next Changelog·1月30日

Windsurf 1.9544.26

アナウンスポップアップと通知のUIスタイルを改善し、バトルグループ選択時にモデルピッカーを閉じるバグ修正と改善を行いました。

Windsurf Changelog·1月30日·★★★★

LLM生成コードで120ドル/年のマイクロSaaSを20分で置き換えた話

4年間新機能なし、3年間請求システム不具合のSaaSを、LLMで20分で同等機能を再現。"一度作って更新しない"SaaSモデルの将来性に疑問。

Pragmatic Engineer·1月30日

Claudeのスキル構築完全ガイド

AIアシスタントClaudeの能力を高めるための包括的な方法論を解説。効果的なスキル開発の手順と実践的なテクニックを紹介。

Claude Blog·1月29日

PLaMo 2.2 Primeをリリースしました

Preferred Networksが純国産生成AI基盤モデルPLaMoの最新バージョンPLaMo 2.2 Primeをリリースした。同モデルでは社内外からのフィードバックをもとに事後学習データを追加している。

Preferred Networks·1月28日

知見の蓄積とリトライによるWebエージェントの性能改善

Preferred Networksの堀口維里優氏が、自社開発のLLM「PLaMo」などを活用し、Webエージェントの性能を知識蓄積とリトライ手法で改善した研究を発表した。

Preferred Networks·1月28日

Claude Teamのアップデート

Claude Teamの新機能や改善点が発表され、チームでのAIアシスタント活用が向上します。

Claude Blog·1月28日

Alyah ⭐️: アラビア語LLMにおけるエミレーツ方言能力の堅牢な評価に向けて

研究者らが、アラビア語大規模言語モデル(LLM)のエミレーツ方言理解能力を評価するための堅牢なベンチマーク「Alyah」を開発した。

Hugging Face Blog·1月27日·★★★★

Windsurf 1.13.14

バグ修正と改善が行われ、永続的に切断されたカスケードの問題が修正されました。

Windsurf Changelog·1月27日

Windsurf Next 1.13.114

コミットメッセージ生成とコードマップ提案のバグ修正を含むアップデートです。

Windsurf Next Changelog·1月26日

Windsurf 1.13.13

コミットメッセージ生成とコードマップ提案の不具合を修正したバージョンアップデートです。

Windsurf Changelog·1月26日

Windsurf Next 1.13.113

エンタープライズ向けに組織全体のコマンド自動実行許可/拒否リスト設定機能を追加。バグ修正とパフォーマンス改善も実施。

Windsurf Next Changelog·1月25日

Windsurf 1.13.12

エンタープライズ管理者が組織全体のコマンド自動実行の許可/拒否リストを設定可能に。バグ修正とパフォーマンス改善を含むリリース。

Windsurf Changelog·1月25日

DeNA × AI Talks #4 開催! - LLMを組み込んだプロダクト開発の実践的知見を公開!

DeNAが主催するAIトークイベント第4回の開催報告。LLMを製品開発に組み込む実践的な知見が共有された。

DeNA Engineering·1月23日

ツール導入時の法務確認リードタイム削減

DeNAグループがSaaS導入時の法務確認プロセスを効率化し、リードタイム削減を実現した取り組みについて紹介。

DeNA Engineering·1月15日

Windsurf Next 1.13.109

OpenAIがエージェント型コーディング向けに開発した最新モデルGPT-5.2-Codexをサポートし、4段階の推論努力レベルを追加した。バグ修正とパフォーマンス向上も実施された。

Windsurf Next Changelog·1月14日

LLMが告白へ、自動化された科学研究、Copilotユーザーの要望、低コストでの推論

AIニュース:初心者向けコースを開始。30分未満でアプリのアイデアを説明し、AIを使って構築する方法を学べます。

The Batch·1月9日

Windsurf Next 1.13.106

GoogleがGemini 3 Flashモデルを全ユーザーに公開した。このモデルはGemini 3 Pro級の推論能力とFlash級の速度・効率性を兼ね備え、エージェントワークフローやコーディングタスクに最適化されている。

Windsurf Next Changelog·12月27日·★★★★

CocoIndexでナレッジグラフを更新しながらRAGを実施

LayerXの鷹取氏が、従来のNative RAGの構造的弱点を克服するため、CocoIndexを用いてナレッジグラフを更新しながらRAGを実行する手法を紹介している。

LayerX Tech Blog·12月22日

実践!gpt-5-mini推論レイテンシ改善:パラメータ調整とプロンプトエンジニアリングによる高速化

LayerXのエンジニアが、推論モデルgpt-5-miniの本番運用で生じたレイテンシ問題を、推論パラメータ調整とプロンプトエンジニアリングにより精度を維持しながら改善した事例を紹介する。

LayerX Tech Blog·12月19日

OpenAIのGemini 3への回答、Runwayのインタラクティブワールド、DisneyとOpenAIの提携、低データ領域へのLLM適応

LLMの知識向上は断片的なプロセスで進んでおり、OpenAIとDisneyの提携や低データ領域への適応など、AI分野の最新動向を紹介。

The Batch·12月17日

Gemma Scope 2:AI安全コミュニティが複雑な言語モデルの挙動理解を深める支援

GoogleはGemma 3ファミリー全体でGemma Scope 2をリリースし、言語モデルの解釈可能性ツールを公開した。これによりAI安全コミュニティが複雑な言語モデルの挙動をより深く理解できるよう支援する。

Google DeepMind·12月16日

AI週間レビュー #329 - GPT 5.2、GenAI.mil、ディズニーとSora

OpenAIがGPT-5.2モデルシリーズをリリースし、日常業務での利用を想定した「Instant」「Thinking」「Pro」の3バージョンを提供した。

Last Week in AI·12月16日·★★★★