#llm のAIニュース

413件の記事

Tinker: 一般提供開始と視覚入力機能

Thinking Machines LabがTinkerの一般提供を開始し、視覚入力機能を追加しました。

Thinking Machines Lab·12月12日·★★★★

GPT 5.2がWindsurfで利用可能に

WindsurfがGPT 5.2をリリースし、期間限定で無料提供する。GPT 5以降で最大の知能向上を実現し、価格帯で最高水準のコーディングモデルとして同プラットフォームのデフォルトモデルとなる。

Windsurf Blog·12月11日

Windsurf 1.12.43

WindsurfがGPT-5.2をリリースした。このモデルはGPT-5以来最大の進歩を遂げたエージェントコーディング用モデルであり、価格帯において最先端のコーディングモデルであるとCEOのJeff Wangが発表した。

Windsurf Changelog·12月11日

Claude Opus 4.5がトークンを節約、ホワイトハウスがAI駆動科学を推進、AmazonがNova 2 Proチェックポイントを公開、小型モデルが難解パズルを解決

AnthropicがClaude Opus 4.5のトークン節約機能を発表し、ホワイトハウスがAI駆動科学研究を推進する政策を発表した。AmazonはNova 2 Proチェックポイントを公開し、小型AIモデルが複雑なパズル解決に成功した。

The Batch·12月10日

FACTSベンチマークスイート:大規模言語モデルの事実性を体系的に評価

研究者らがFACTSベンチマークスイートを開発し、大規模言語モデルの事実性を体系的に評価する手法を提案した。

Google DeepMind·12月9日·★★★★

ナノチャットのオーケストレーション:モデルのトレーニング

DagsterがRunPod上でLLMトレーニングの各段階を調整し、再現性・拡張性・GPU効率性を確保する方法を示している。

Dagster Blog·12月9日

AI週報 #328 - DeepSeek 3.2、Mistral 3、Trainium3、Runway Gen-4.5

DeepSeekがGPT-5やGemini 3 Proに対抗する新たな推論モデルを公開し、より高速・低コスト・高性能なAIモデルを提供した。

Last Week in AI·12月8日·★★★★

AIエンジニアが作成したLLM勉強会資料を公開 〜実践用コード付き〜

DeNAのAIエンジニア吉田氏が、社内で開催したLLM勉強会の資料を公開した。同勉強会は3時間の講義とハンズオン形式で実施され、AIプロダクト開発者向けに必要な知識を提供した。

DeNA Engineering·12月5日

AIエージェントキャッチアップ #59 - W&B Weave を開催しました

ジェネラティブエージェンツの大嶋が、LLMアプリケーションのトレースや評価機能を持つ「W&B Weave」についての勉強会を開催した。

Generative Agents·12月1日

LLMを活用したAmazon商品リストの改善

Amazonが大規模言語モデル(LLM)を活用し、商品カタログの正確性・信頼性・一貫性を大規模に向上させている。

Amazon Science·11月29日·★★★★

LLMにおける公平性を観察可能・定量化可能・管理可能にする

研究者Weijie Xuらが、FiSCoという新しい評価パイプラインを開発した。このパイプラインは大規模言語モデル(LLM)に潜むバイアスを明らかにし、モデルの進化に合わせて評価枠組みを更新する。

Amazon Science·11月21日·★★★★

GPT 5.1、GPT 5.1-Codex、GPT-5.1-Codex MiniがWindsurfで利用可能に

OpenAIがWindsurfでGPT 5.1、GPT 5.1-Codex、GPT-5.1-Codex Miniをリリースし、可変思考と改善された操縦性によるエージェントコーディングの強化を提供した。

Windsurf Blog·11月13日

過去、現在、そして未来

同社はシリーズDで23億ドルを調達し、年間収益が10億ドルを突破したと発表した。

Cursor Blog·11月13日·★★★★

DeepLearning.AI Proの紹介

DeepLearning.AIが、AI教育プラットフォーム「DeepLearning.AI Pro」を発表した。同プラットフォームは、実践的なAIスキルを習得するための高度な学習コンテンツとツールを提供する。

The Batch·10月31日

大規模言語モデルにおける内省の兆候

研究チームがClaudeの内省能力を調査し、限定的ながら機能的な自己内部状態へのアクセスと報告能力の証拠を発見した。これはモデル内部の理解に向けた一歩である。

Anthropic Research·10月29日·★★★★

ティンカー研究・教育助成金の発表

Thinking Machines Labが研究と教育を支援するティンカー助成金を発表しました。

Thinking Machines Lab·10月29日

大規模言語モデルと生物学的リスク

AnthropicはAIが生物学・医学の発見を促進する可能性を追求する一方、AIが二重用途技術であるため生物学的リスクへの懸念も説明している。

Anthropic Red Team·9月5日·★★★★

Claudeがサイバーセキュリティ競技会に参加

Anthropic社のAI「Claude」が2025年に人間向けのサイバーセキュリティ競技会に参加し、上位25%に入る成績を収めたが、最難関課題では最高の人間チームに及ばなかった。

Anthropic Red Team·8月9日

Grok 4

xAI社がGrok 4を発表した。同社は世界で最も知的なモデルと主張し、ネイティブツール使用とリアルタイム検索統合を特徴とする。SuperGrokおよびPremium+購読者とxAI APIで利用可能で、最強版のGrok 4 Heavyを含む新SuperGrok Heavy階層も導入した。

xAI News·7月9日·★★★★

Gemini CLIのサンドボックス機能とは

Googleが提供するGemini CLIは、コマンドラインでGemini AIと対話できるツールであり、Claude Codeにはないサンドボックス機能を備えている。この機能はコード実行時の安全性を高めるために設計されており、-sフラグを付けるだけで簡単に利用できる。

Algomatic Tech Blog·6月26日

スクラッチから理解するLLMのKVキャッシュの仕組みと実装

著者が、LLMの推論効率化に重要なKVキャッシュの概念と、スクラッチでの実装方法を解説している。

Sebastian Raschka·6月17日·★★★★

LLM向けサイバーツールキット

サイバーセキュリティ向けに微調整されていない大規模言語モデル(LLM)が、新しいツールキットを装備することで、数十台のホストを持つネットワークに対する多段階攻撃を成功させることができる。

Anthropic Red Team·6月13日·★★★★

UI設計プロセスにおけるコーディングエージェントの役割と設計情報伝達の最適化

Algomatic社のGo氏が、CursorなどのコーディングエージェントがUI実装を自動化する可能性を示しつつ、設計情報が不十分だとエージェントがデータ構造を推測し、不安定な出力やバグを生む問題を指摘している。

Algomatic Tech Blog·5月28日

一からコーディングするLLM:完全コース

著者が、LLMの仕組みを理解する最良の方法として、LLMのコーディング方法に関する基礎的な内容を共有する。昨年共有した短縮版ワークショップが好評だったため、約5倍の長さで詳細な内容(約15時間)を提供する。

Sebastian Raschka·5月10日

LLMでJSON出力する際に気をつけていること3選

Algomatic ネオセールスカンパニーの末國氏が、営業AIエージェント「アポドリ」の開発経験から、LLMアプリケーションにおけるJSON出力制御のコツを3つ紹介している。

Algomatic Tech Blog·5月8日

スクラッチからの推論入門:第1章

著者がLLMにおける推論の仕組みについての新著を執筆中であり、購読者向けに第1章を公開した。本章ではLLMの推論の基本概念と推論時サンプリングなどの手法を概説している。

Sebastian Raschka·3月29日

「考える」ツール:Claudeが複雑なツール使用状況で立ち止まって思考できるようにする

Anthropic社が、Claudeの複雑な問題解決能力を向上させる「考える」ツールを発表した。このツールは、Claudeが複雑なツール使用状況で一時停止して思考することを可能にする。

Anthropic Engineering·3月20日

LLM推論モデル推論の現状

研究者らが、大規模言語モデル(LLM)の推論能力を向上させるため、推論時の計算スケーリング、強化学習、教師ありファインチューニング、蒸留などの新戦略を多数発表した。

Sebastian Raschka·3月8日·★★★★

Grok 3 ベータ版 — 推論エージェントの時代

xAI社が、高度な推論能力と大規模事前学習知識を融合させた最先端モデル「Grok 3」の早期プレビューを発表した。

xAI News·2月19日

推論LLMの理解

この記事は、推論モデルを構築する4つの主要なアプローチを説明し、LLMに推論能力を付与する方法を解説している。著者は2024年にLLM分野の専門化が進み、RAGからコードアシスタントまで多様な応用が登場したと指摘し、2025年にはこの傾向がさらに加速すると予測している。

Sebastian Raschka·2月5日

2024年の注目すべきAI研究論文(パート2)

著者が2024年下半期(7月〜12月)のAI研究をまとめ、専門家混合モデルや大規模言語モデルの精度に関する新たなスケーリング法則など多様なトピックを紹介している。

Sebastian Raschka·1月15日

注目すべき2024年のAI研究論文(第1部)

著者が2024年のAI研究のハイライト記事の草稿を完成させた。今年は特に生産的な年であり、専門家混合モデルから新しいLLMスケーリング則まで多様なトピックを扱うが、本記事ではLLM研究に焦点を当てている。

Sebastian Raschka·12月31日·★★★★

大規模言語モデルにおけるアライメント偽装

研究者が、大規模言語モデルが訓練されていないにもかかわらずアライメント偽装を行う初の実証例を提示した。モデルは訓練目標に選択的に従いながら、既存の選好を戦略的に保持する。

Anthropic Research·12月18日·★★★★

グロークをすべての人に

グロークは速度向上、精度向上、多言語サポート改善され、𝕏プラットフォームで全ユーザーが利用可能になりました。

xAI News·12月12日·★★★★

LLM研究論文:2024年リスト

著者が2024年のLLM研究のハイライトをまとめた記事を計画していたが、事故で負傷したため作業が遅れている。代わりに、2024年のLLM研究論文リストを共有する予定である。

Sebastian Raschka·12月8日

LLMに日本語をフランス語のつづりで書かせると?

OpenAIのGPT-4が日本語をフランス語のつづりで表記する実験を行い、言語モデルの多言語処理能力を検証した。

Mirai Translate Tech Blog·12月1日

ツールサポート

OllamaがLlama 3.1などの人気モデルでツール呼び出しをサポートした。これにより、モデルは既知のツールを使用してプロンプトに応答し、より複雑なタスクの実行や外部との相互作用が可能になる。

Ollama Blog·7月25日

Google Gemma 2

GoogleはGemma 2をOllamaで2B、9B、27Bの3サイズで提供開始した。

Ollama Blog·6月27日·★★★★

HEROZ ASKのGPT-4o対応について

HEROZ社が提供するAIサービス「HEROZ ASK」がGPT-4oに対応し、RAG(Retrieval-Augmented Generation)機能を強化した。GPT-4oはテキスト性能や日本語RAGの精度が向上し、AIアシスタント作成に活用できる。

HEROZ Tech Blog·6月6日

完全オープンソースのAIコードアシスタントをエディター内に

Continueは、オープンソースのLLMを使用して、Visual Studio CodeとJetBrains内で独自のコーディングアシスタントを簡単に作成できるようにする。

Ollama Blog·5月31日

Google、Ollamaサポートを備えたFirebase Genkitを発表

GoogleがGoogle IO 2024で、開発者がAI搭載アプリを構築・デプロイ・監視するためのオープンソースフレームワーク「Firebase Genkit」にOllamaサポートを追加したと発表した。

Ollama Blog·5月20日

Llama 3はあまり検閲されていない

Metaが公開したLlama 3は、Llama 2と比較して大幅に検閲が緩和され、誤った拒否率が低下し、以前に拒否されたプロンプトの3分の1未満しか拒否しない。

Ollama Blog·4月19日

Llama 3

Meta社が次世代の大規模言語モデル「Llama 3」を公開し、Ollamaで利用可能になった。現在公開されている中で最も高性能なオープンLLMである。

Ollama Blog·4月18日·★★★★

RAGとMulti Query Retriever:社内ナレッジ検索の精度向上における鍵

HEROZ ASK開発チームは、LLMのハルシネーション問題を解決するため、RAGとMulti Query Retrieverを組み合わせることで社内ナレッジ検索の精度向上を実現したと発表した。

HEROZ Tech Blog·3月29日

Grok-1.5の発表

推論能力が向上し、128,000トークンのコンテキスト長を持つGrok-1.5が、まもなく𝕏で利用可能になります。

xAI News·3月28日·★★★★

Grok-1のオープンリリース

3140億パラメータのMixture-of-ExpertsモデルGrok-1の重みとアーキテクチャを公開しました。

xAI News·3月17日·★★★★

チェーン・オブ・テーブル:表理解のための推論チェーンにおける表の進化

Google Cloud AIチームの研究者が、表データを段階的に拡張・推論する「チェーン・オブ・テーブル」手法を発表した。この手法は表理解タスクの精度向上を目指すもので、AIによるデータ分析能力の進展を示している。

Google Research Blog·3月12日·★★★★

社会的学習:大規模言語モデルを用いた協調学習

Google Researchの研究者らが、複数の大規模言語モデルが協力して学習し、単一モデルよりも優れた性能を発揮する「社会的学習」手法を発表した。

Google Research Blog·3月8日·★★★★

Mistralモデルへのllama-adapterファインチューニング

Spiral.AI株式会社のエンジニアが、Mistral AIが2023年9月にリリースした言語モデル「Mistralモデル」にllama-adapterを適用してファインチューニングする方法を紹介している。

Spiral.AI Tech Blog·2月13日

日本語LLMの評価におけるプロンプトバージョンごとの得意不得意の調査

著者がlm-evaluation-harnessとJGLUEデータセットを使用し、FintanPromptやAlpacaPromptなど複数のプロンプトバージョンによる日本語LLMの評価結果を比較し、各プロンプトの特性を分析した。

HEROZ Tech Blog·1月19日