#llm のAIニュース

952件の記事

AIエンジニアが作成したLLM勉強会資料を公開 〜実践用コード付き〜

DeNAのAIエンジニア吉田氏が、社内で開催したLLM勉強会の資料を公開した。同勉強会は3時間の講義とハンズオン形式で実施され、AIプロダクト開発者向けに必要な知識を提供した。

DeNA Engineering·12月5日

DeepSeek V3からV3.2へ:アーキテクチャ、スパースアテンション、RLアップデート

DeepSeekの主力オープンウェイトモデルが、アーキテクチャの改良、スパースアテンションの導入、強化学習による更新を通じて進化した過程を解説。

Sebastian Raschka·12月3日·★★★★

AIエージェントキャッチアップ #59 - W&B Weave を開催しました

ジェネラティブエージェンツの大嶋が、LLMアプリケーションのトレースや評価機能を持つ「W&B Weave」についての勉強会を開催した。

Generative Agents·12月1日

LWiAIポッドキャスト第226回 - Gemini 3、Claude Opus 4.5、Nano Banana Pro、LeJEPA

LWiAIポッドキャストが、GoogleのGemini 3 Pro、AnthropicのOpus 4.5、OpenAIのGPT-5.1など、主要AI企業の新モデルリリースとロボティクス分野の進展について議論した。

Last Week in AI·11月30日·★★★★★

LLMを活用したAmazon商品リストの改善

Amazonが大規模言語モデル(LLM)を活用し、商品カタログの正確性・信頼性・一貫性を大規模に向上させている。

Amazon Science·11月29日·★★★★

Googleがアリーナリーダーボードを制覇、Microsoft+Anthropic、レコード会社がAI音楽を支援、LLMの人格制御

GoogleがAIモデル評価プラットフォーム「Arena」のリーダーボードを独占し、MicrosoftとAnthropicが提携、主要レコード会社がAI音楽生成を支援、研究者が大規模言語モデルの人格制御技術を開発した。

The Batch·11月26日

LWiAIポッドキャスト第225回 - GPT 5.1、Kimi K2思考、リモート労働指数

アンドレイ・クレンコフとミシェル・リーが、OpenAIのGPT 5.1や百度のErnie 5.0などの新AIモデル、百度アポロゴーやPony AIのIPOなどの自動運転技術の進展について議論した。

Last Week in AI·11月22日·★★★★★

LLMにおける公平性を観察可能・定量化可能・管理可能にする

研究者Weijie Xuらが、FiSCoという新しい評価パイプラインを開発した。このパイプラインは大規模言語モデル(LLM)に潜むバイアスを明らかにし、モデルの進化に合わせて評価枠組みを更新する。

Amazon Science·11月21日·★★★★

Grok 4.1 FastとAgent Tools API

xAI社が次世代ツール呼び出しエージェントをAPIに導入し、Grok 4.1 FastとAgent Tools APIを発表した。

xAI News·11月19日

GPT-3からGemini 3へ:3年間の進化

筆者はGoogleの新モデル「Gemini 3」をテストし、その高品質さを評価した。ベンチマーク数値ではなく、過去3年間のAIの進歩を具体的に示すため、AI自身にその進化を実演させる手法を用いて比較分析を行っている。

One Useful Thing·11月19日·★★★★

Grok 4.1

Grok社がAIモデル「Grok 4.1」をgrok.com、𝕏、iOS/Androidアプリで全ユーザーに公開した。Autoモードで即時展開され、モデル選択画面から明示的に選択可能。

xAI News·11月17日

GPT 5.1、GPT 5.1-Codex、GPT-5.1-Codex MiniがWindsurfで利用可能に

OpenAIがWindsurfでGPT 5.1、GPT 5.1-Codex、GPT-5.1-Codex Miniをリリースし、可変思考と改善された操縦性によるエージェントコーディングの強化を提供した。

Windsurf Blog·11月13日

過去、現在、そして未来

同社はシリーズDで23億ドルを調達し、年間収益が10億ドルを突破したと発表した。

Cursor Blog·11月13日·★★★★

AIに職業面接を行う

現在のAI評価は人間同様のテスト(ベンチマーク)に依存しているが、正解データが公開されているため信頼性に課題がある。この記事は、AIの「賢さ」を測定する既存手法の問題点を指摘し、より適切な評価方法の必要性を示唆している。

One Useful Thing·11月12日·★★★★

n8nを試してみた

オープンソースのAIワークフロー自動化ツールn8nを試用。業務効率化の可能性を探り、長所・短所を評価した実践レポート。

HEROZ Tech Blog·11月11日

DeepLearning.AI Proの紹介

DeepLearning.AIが、AI教育プラットフォーム「DeepLearning.AI Pro」を発表した。同プラットフォームは、実践的なAIスキルを習得するための高度な学習コンテンツとツールを提供する。

The Batch·10月31日

大規模言語モデルにおける内省の兆候

研究チームがClaudeの内省能力を調査し、限定的ながら機能的な自己内部状態へのアクセスと報告能力の証拠を発見した。これはモデル内部の理解に向けた一歩である。

Anthropic Research·10月29日·★★★★

ティンカー研究・教育助成金の発表

Thinking Machines Labが研究と教育を支援するティンカー助成金を発表しました。

Thinking Machines Lab·10月29日

現在、AIを正しく使用するための独断的なガイド

筆者はChatGPTの利用実態データに基づき、週10%の人間がAIを使用する現状で、単なる雑談ではなく情報検索に重点がある実態を踏まえ、実際の使用パターンに基づく具体的なAI活用法の助言を提供している。

One Useful Thing·10月20日·★★★★

エージェントスキルによる現実世界対応のエージェント構築

Anthropic社が、ファイルやフォルダを活用して専門エージェントを構築する新手法「Agent Skills」を発表した。Claudeは強力だが、実際の業務には手順知識や組織文脈が必要であると指摘している。

Anthropic Engineering·10月16日

AIエージェントを支える技術:コンテキストエンジニアリングの現状

大規模言語モデルを用いたAIエージェント構築に不可欠なコンテキストエンジニアリングについて、2025年時点での知見をまとめた記事。

Algomatic Tech Blog·10月15日·★★★★

カールパティのトークナイザー動画から書籍章を作成した方法

著者はSolveItプラットフォームを用い、アンドレイ・カールパティのトークナイザー動画チュートリアルを基に書籍章を作成した。SolveItは小さな検証可能なステップで問題を解決するアプローチであり、最終成果物には実行コードや追加解説が含まれる。

Answer.AI·10月13日·★★★★

Claudeが進化、Qwen3が普及、大手AI企業が製品ラインを多様化、LoRAアダプターが手軽に利用可能に

AnthropicがClaudeを進化させ、AlibabaがQwen3を普及させ、大手AI企業が製品ラインを多様化し、LoRAアダプターが手軽に利用可能になった。

The Batch·10月8日

Solveit 公開:AI疲労への対抗策

fast.ai は、反復的問題解決を学ぶコースとプラットフォーム「Solveit」を公開した。これは AI を少量活用して学習しながら構築する手法を示し、AI 依存を避ける。小ステップと深い理解を重視するこのアプローチは、「バイブコーディング」の対極にある。

Answer.AI·10月2日·★★★★

Cachy:ノートパソコンの処理速度を60倍に高速化した方法

AnswerAIは、AnthropicやOpenAIなどのLLMプロバイダーとの連携を容易にするオープンソースPythonパッケージ「Claudette」や「Cosette」を開発した。これらのツールは多数のLLM呼び出しを処理するが、各呼び出しに数百ミリ秒かかるためテスト実行が遅延する課題があった。この問題を解決し、ノートパソコンの処理速度を60倍に高速化する技術「Cachy」の実装について解説している。

Answer.AI·10月1日·★★★★

ウィザードとの協業について

著者は、AIを「共同知性」として interns や同僚のように扱う従来の考え方を提示した。しかし、AIの性質が変化しており、人間とAIの関係性が単なるパートナーシップから別の方向へ移行しつつあると主張している。

One Useful Thing·9月12日·★★★★

Qwen3をゼロから理解し実装する

主要なオープンソースLLMの一つであるQwen3について、詳細な解説と実装方法を紹介します。

Sebastian Raschka·9月6日·★★★★

大規模言語モデルと生物学的リスク

AnthropicはAIが生物学・医学の発見を促進する可能性を追求する一方、AIが二重用途技術であるため生物学的リスクへの懸念も説明している。

Anthropic Red Team·9月5日·★★★★

AI駆動開発の組織導入への道のり 〜4ヶ月の試行錯誤記録〜

CursorやClaudeなどのAI開発ツールを組織導入するため、トライアル検証から始めた4ヶ月間の試行錯誤と学びを記録した記事。

Mirai Translate Tech Blog·8月19日·★★★★

Claude Code hooksで始めるPromptOps:チームで意図を残す仕組み作り

Claude Codeをチームで活用する際、プロンプト共有の重要性を指摘し、その実践方法を紹介。AIエンジニアの知見共有環境を活かした取り組み。

Algomatic Tech Blog·8月14日·★★★★

GPT-5の困難な離陸、AI動画の大ヒット作、インドの国産LLM、合成データ生成

OpenAIがGPT-5の開発に困難を抱えている一方、AI生成動画が注目を集め、インドが国産大規模言語モデルを開発し、合成データ生成技術が進展している。

The Batch·8月13日

オープンウェイトモデルで広がる生成AI活用:LLM API活用の課題と自社運用

LLMのAPI活用にはコストや安全性の課題があるが、オープンウェイトモデルを自社運用することで解決できる可能性を示す記事。

Algomatic Tech Blog·8月12日·★★★★

GPT-2からgpt-ossへ:アーキテクチャの進化を分析

GPT-2からgpt-ossまでのアーキテクチャの進歩を分析し、Qwen3との比較を考察する。

Sebastian Raschka·8月9日·★★★★

Claudeがサイバーセキュリティ競技会に参加

Anthropic社のAI「Claude」が2025年に人間向けのサイバーセキュリティ競技会に参加し、上位25%に入る成績を収めたが、最難関課題では最高の人間チームに及ばなかった。

Anthropic Red Team·8月9日

GPT-5:ただ、それを実行するだけ

筆者はGPT-5への早期アクセス権を持ち、その重要性を評価している。特定の指示を含むプロンプトを入力したところ、24秒間の思考を経て劇的な出力を生成し、その能力の高さを示した。

One Useful Thing·8月8日·★★★★

GSPO:言語モデル向けスケーラブル強化学習へ向けて

著者らは、大規模言語モデルの強化学習で既存手法が長期訓練時に崩壊する問題を解決するため、安定なスケーラブル強化学習手法「GSPO」を提案する。

Qwen Blog·7月27日·★★★★

Qwen-MT:速度とスマート翻訳の融合

Qwen開発チームは、Qwen API経由で「qwen-mt-turbo」を公開した。同モデルはQwen3基盤に92言語分の翻訳データと強化学習を統合し、翻訳精度と流暢性を大幅に向上させた。

Qwen Blog·7月24日

Qwen3-Coder:世界におけるエージェント型コーディング

QwenチームはMoE方式の「Qwen3-Coder」を発表した。最大1Mトークンに対応し、コーディングとエージェントタスクで卓越する。

Qwen Blog·7月22日·★★★★

LLMで「何でも」できる時代のAIエンジニア生存戦略 - LLMのグラウンディング能力について

LLM/VLM時代において、グラウンディング(現実世界との接続)が苦手な点を克服するため、他のモデルとの組み合わせが重要であり、これが次世代AIエンジニアの必須スキルとなる。

Algomatic Tech Blog·7月18日·★★★★

Grok 4

xAI社がGrok 4を発表した。同社は世界で最も知的なモデルと主張し、ネイティブツール使用とリアルタイム検索統合を特徴とする。SuperGrokおよびPremium+購読者とxAI APIで利用可能で、最強版のGrok 4 Heavyを含む新SuperGrok Heavy階層も導入した。

xAI News·7月9日·★★★★

「脳への悪影響」論に反駁:AIは思考を損なうのか

著者は、AIが脳に物理的損害を与えないことを明確にしつつ、人々が持つ「思考能力への悪影響」への不安の背景を分析する。その上で、AIを脳の機能を活用し強化するための道具として活用する方法について議論を展開している。

One Useful Thing·7月8日·★★★★

LLM研究論文:2025年リスト(1月〜6月)

Sebastian Raschka博士は、2025年1月から6月にかけて発表された200本以上のLLM研究論文をテーマ別に整理したリストを公開している。

Sebastian Raschka·7月1日

Gemini CLIのサンドボックス機能とは

Googleが提供するGemini CLIは、コマンドラインでGemini AIと対話できるツールであり、Claude Codeにはないサンドボックス機能を備えている。この機能はコード実行時の安全性を高めるために設計されており、-sフラグを付けるだけで簡単に利用できる。

Algomatic Tech Blog·6月26日

今すぐAIを活用する:クイックガイド

筆者は、主要なAI製品の動作原理に重要な変化が生じたため、最新の利用ガイドを提示する。単なるモデルの優劣ではなく、一般ユーザーにとって最適な総合システムを選ぶことが重要であり、3つの優れた選択肢の中から適切なAIを選定する難易度を軽減することを目的としている。

One Useful Thing·6月24日·★★★★

スクラッチから理解するLLMのKVキャッシュの仕組みと実装

著者が、LLMの推論効率化に重要なKVキャッシュの概念と、スクラッチでの実装方法を解説している。

Sebastian Raschka·6月17日·★★★★

MIT研究者が「SEAL」を発表:自己改善型AIへの新たな一歩

MITは「SEAL(Self-Adapting LLMs)」という新フレームワークを発表した。これは大規模言語モデル(LLM)が自身の重みを更新できる仕組みであり、自己進化型AIの実現に向けた重要な進展と見なされている。

Synced Review·6月16日·★★★★

LLM向けサイバーツールキット

サイバーセキュリティ向けに微調整されていない大規模言語モデル(LLM)が、新しいツールキットを装備することで、数十台のホストを持つネットワークに対する多段階攻撃を成功させることができる。

Anthropic Red Team·6月13日·★★★★

みらい翻訳APIを活用した翻訳MCPサーバーの構築

みらい翻訳APIを用いて翻訳MCPサーバーを構築し、CursorなどのLLMアプリケーションで実用性を検証した事例。

Mirai Translate Tech Blog·6月11日

AGIはマルチモーダルではない

言語モデルを思考のモデルと見なすことで、知能の基盤となる暗黙の身体的知覚を見失うと指摘。最近の生成AIの成功がAGIの到来を予感させるが、言語中心のアプローチには限界がある。

The Gradient·6月4日·★★★★

UI設計プロセスにおけるコーディングエージェントの役割と設計情報伝達の最適化

Algomatic社のGo氏が、CursorなどのコーディングエージェントがUI実装を自動化する可能性を示しつつ、設計情報が不十分だとエージェントがデータ構造を推測し、不安定な出力やバグを生む問題を指摘している。

Algomatic Tech Blog·5月28日