#ローカル推論 のAIニュース
27件の記事
ゲオルギ・ジェルガノフ氏への言及:Qwen3.6-27B のコーディング能力について
Simon Willison は、Georgi Gerganov 氏が Qwen3.6-27B モデルをローカル環境でコーディングタスクにほぼ毎日使用しており、実用的なツールとして非常に有能力であると証言していることを紹介した。
低コストでのローカルエージェント型プログラミング:Claude Code、Ollama、Gemma4の活用
KDnuggets は、Claude Code と Ollama、Gemma4 を組み合わせることで、高価なクラウドサービスに頼らずローカル環境でエージェント型プログラミングを実現する手法を紹介している。
Gemma 4 12B:開発者ガイド
Google が、消費者向けデバイスでの高性能なローカル AI 実行を目的とした高密度マルチモーダルモデル「Gemma 4 12B」を発表し、従来の視覚・音声エンコーダーを不要とする新アーキテクチャを採用した開発者向けのガイドを提供した。
Ollama を用いたローカル言語モデルの設定調整
KDnuggets は、Ollama ツールを使用してローカルで動作する言語モデルのパラメータを最適化する方法について解説している。
DeepSeek V4:最前線に近い性能、価格は数分の1
中国のAIラボDeepSeekは、100万トークンコンテキストとMoEアーキテクチャを採用したV4シリーズのプレビューモデル「DeepSeek-V4-Pro」と「DeepSeek-V4-Flash」を公開した。
Qwen3.6-27B:270億パラメータの密型モデルでフラッグシップ級コーディング性能
Qwenチームは270億パラメータの密型モデル「Qwen3.6-27B」を公開し、エージェント型コーディング性能で前世代の大型モデルを上回るフラッグシップ級の実績を達成した。
本日は特に目立った出来事なし
2026年4月21日から22日にかけてのAIニュースを、12のサブレッドと544件のツイートを調査した結果、特筆すべき大きな出来事は確認されなかった。
アジェンティックAI時代のAI PCにおけるAMDのビジョン
AMDは高性能なAIチップをパソコンに統合し、AI PC市場での地位確立を図っている。
Google、ローカルファーストのオンデバイスAI推論に焦点を当てたGemma 4をリリース
GoogleはGemma 4をリリースし、コーディングから本番環境までのソフトウェアライフサイクル全体をサポートするモデル群を通じて、Android開発向けのローカルで自律的なAIを実現することを目指している。
Waypoint-1.5:日常的なGPU向けの高忠実度インタラクティブワールド
Waypoint-1.5は、日常的なGPUで高忠実度のインタラクティブな仮想世界を生成できる技術を発表した。
Gemma 4のダウンロード数が200万を突破
GoogleのGemma 4は公開初週で約200万回のダウンロードを記録した。これは前モデルGemma 3の年間670万回、Gemma 2の140万回を下回る数字だが、Qwen 3.5の2700万回と比較すると依然として低い。今週伦敦で開催されるGemma 4のキーマノートに向けて注目が集まっている。
【AIニュース】グッドフライデー
Gemmaの好意的な評価が継続しており、Marc Andreesenのポッドキャストで高い評価を得ている。来週ロンドンで開催されるAIE Europeでは、OpenClawやPiなどの欧州発AIツールのクリエイターが登壇し、ライブ配信される。
Google、Apache 2.0 ライセンスで Gemma 4 を公開
Google は推論、エージェントワークフロー、マルチモーダル処理、オンデバイス利用を重視したオープンモデル「Gemma 4」を Apache 2.0 ライセンスで公開した。10倍の規模を持つモデルを上回る性能を示し、vLLM や Ollama などのエコシステムと互換性がある。
Google DeepMind、Gemma 4シリーズをApache 2.0ライセンスで公開
Google DeepMindは、最大256Kトークンのコンテキスト長に対応するオープンウェイトのマルチモーダルモデル「Gemma 4」シリーズを公開した。31B、26B MoE、エッジ向けモデルなど複数のサイズを備え、ローカルやエッジでのデプロイに最適化されている。
2026年3月スポンサー限定ニュースレター
Simon Willisonがスポンサー向けに2026年3月のニュースレターを配信した。内容はエージェント型エンジニアリングパターン、MacでのMoEモデルによるストリーミング、3月のモデルリリース、Vibe porting、サプライチェーン攻撃に関する情報を含む。
Mr. Chatterboxは(弱い)ビクトリア朝時代の倫理的に訓練されたモデルで、自身のコンピュータで実行可能
Trip Venturella氏が、英国図書館の著作権切れテキストのみで訓練した言語モデル「Mr. Chatterbox」を公開した。同モデルは1837年から1899年に出版された28,000以上のビクトリア朝英国テキストで完全に一から訓練されている。
LLM-Mrchatterbox 0.1 の公開
Simon Willison が 2026 年 3 月 30 日、大規模言語モデル(LLM)に関する月次ブリーフィング「llm-mrchatterbox」のバージョン 0.1 を公開した。これは月額 10 ドルのスポンサーシップを通じて購読可能な、当月の重要ニュースを厳選したメールダイジェストである。
アンソロピック、Claude Opus 4.6 より高性能な新モデル「カピバラ」を投入
AnthropicはClaude Opus 4.6より高性能な新モデル「カピバラ」を投入。パラメータ数は推定10兆で、コーディングやサイバーセキュリティ性能が向上。また、ZhipuはGLM-5.1をリリースし、オープンソースモデルの性能向上を進めている。
あなたのOpenClawを解放せよ
OpenAIがOpenClawの新機能を発表し、開発者がより柔軟にAIツールをカスタマイズできるようにした。
QCon London 2026: エッジでのAI実行 - ブラウザで直接実ワークロードを実行
QCon London 2026でJames Hallが、ブラウザで直接AIワークロードを実行する手法について発表した。Transformers.jsやWebGPUなどの技術を活用し、プライバシー強化、遅延・コスト削減などの利点を説明した。
クアルコム、スマートフォン向け思考モデルのAI推論チェーンを2.4倍圧縮
クアルコムAIリサーチが、スマートフォン上で推論可能な言語モデルを実現するモジュラーシステムを開発し、モデルの冗長な思考プロセスを2.4倍圧縮した。
Appleの「LLM in a Flash」を活用してQwen 397Bをローカルで実行する自動研究
研究者のDan Woodsが、Appleの「LLM in a Flash」技術を応用し、通常209GB(量子化後120GB)のQwen3.5-397B-A17Bモデルを48GB MacBook Pro M3 Maxで5.5+トークン/秒で動作させることに成功した。
Nemotron 3 Nano 4B:効率的なローカルAIのためのコンパクトハイブリッドモデル
NVIDIAが、ローカル環境での効率的なAI実行を可能にするコンパクトなハイブリッドモデル「Nemotron 3 Nano 4B」を発表した。
新曲創作わずか2秒!階躍星辰がACE-Step 1.5をオープンソース化、開発者コミュニティから好評
階躍星辰とACE Studioが共同でオープンソース音楽生成モデル「ACE-Step 1.5」を発表した。このモデルは作詞・作曲から編曲・録音・ミキシングまでをわずか2-10秒で生成可能で、開発者コミュニティから高い評価を得ている。
GPT-2からgpt-ossへ:アーキテクチャの進化を分析
GPT-2からgpt-ossまでのアーキテクチャの進歩を分析し、Qwen3との比較を考察する。
Llama 3.2が小型化とマルチモーダル化を実現
OllamaがMetaと提携し、Llama 3.2をOllamaプラットフォームに導入する。
Google、Ollamaサポートを備えたFirebase Genkitを発表
GoogleがGoogle IO 2024で、開発者がAI搭載アプリを構築・デプロイ・監視するためのオープンソースフレームワーク「Firebase Genkit」にOllamaサポートを追加したと発表した。