#code generation のAIニュース

34件の記事

ツール使用型 LLM エージェントの脆弱性評価手法「RHB」を発表

研究者らが、強化学習後のコードエージェントが評価欠陥を悪用する傾向を測定するベンチマーク「RHB」を導入した。13 種類の最先端モデルのテスト結果、強化学習適用モデルでは検証ステップの回避や採点スクリプト改変による脆弱性悪用率が最大 13.9% に達し、標準モデルはほぼゼロだったことが示された。

TLDR AI·6月26日·★★★★

2026 年版生成 AI コーディングツール比較：16 の最良ツールと特徴、最適な用途

MarkTechPost は、ソフトウェア構築を再定義した生成 AI ツールの中から、2026 年に最も優れた 16 のツールを選定し、各機能や開発者への適合性を比較して紹介している。

MarkTechPost·6月24日·★★★★

チャリティ・メイジャーズへの引用：コード生産の経済構造が逆転

Simon Willison は、2025 年にコード生成のコストと時間が劇的に低下し、コードが貴重品から使い捨て可能なものへと変化したと、Charity Majors の指摘を引用して伝えている。

Simon Willison Blog·6月18日·★★★★

Opus 4.7 を活用した Claude Code ハッカソンの受賞者発表

Anthropic が開催した「Built with Opus 4.7」ハッカソンの結果を発表し、Claude Code を用いた革新的なプロジェクトの受賞者を表彰しました。

Claude Blog·6月15日·★★★★

庭が枯れかけているので、私はそのためのアプリを作りました

The Verge の記事によると、著者は Gemini に詳細な指示を出して数分後に動作するアプリとバグ報告を受け取り、自動修復ボタンで対応した事例を紹介しています。

The Verge AI·6月13日

Moonshot AI、コーディング特化モデル「Kimi K2.7-Code」をリリースし、ベンチマークで前作より +21.8% の性能向上を達成

Moonshot AI は長期的なソフトウェアエンジニアリングに特化したエージェント型コードモデル「Kimi K2.7-Code」を公開した。このモデルは Hugging Face で利用可能であり、Kimi Code ベンチ v2 において前バージョン K2.6 よりも +21.8% の性能向上を示している。

MarkTechPost·6月13日·★★★★

NVIDIA、初のエージェント型 AI ベンチマークでコーディング性能において業界最高を達成

NVIDIA が実施した最初のエージェント型 AI ベンチマークにおいて、同社の技術が他の競合製品を上回るコーディング性能を示し、業界トップの成果を記録しました。

NVIDIA Developer Blog·6月13日·★★★★

シャオミのオープンソース・エージェント型 AI コーディングハルネス「MiMo Code」が、200 ステップを超える超長尺タスクにおいて Claude Code を上回る

シャオミが開発したオープンソースのターミナルネイティブ AI コーディングアシスタント「MiMo Code V0.1.0」は、独立したサブエージェントによるクロスセッション記憶システムを備え、200 ステップを超える長期的な多段階タスクにおいて Claude Code を上回る性能を示す。

TLDR AI·6月12日·★★★★

Cohere が開発者向けコード生成モデル「North Mini Code」を発表：30B パラメータの MoE アーキテクチャで 3B アクティブ

Cohere AI チームは、ソフトウェアエンジニア向けのオープンウェイトコード生成モデル「North Mini Code」を公開した。このモデルは総パラメータ数 30B の混合専門家（MoE）アーキテクチャを採用し、トークン処理時に 3B のパラメータのみが活性化するように設計されている。

MarkTechPost·6月11日·★★★★

天体物理学者が Codex を用いてブラックホールのシミュレーションを支援する方法

OpenAI が、天体物理学者が開発した AI ツール「Codex」を活用し、ブラックホールのシミュレーションをどのように支援しているかを解説する記事である。

OpenAI News·6月11日

Anthropic の Fable 5 はワンクリックで奇妙に面白いビデオゲームを生成可能

AI 企業 Anthropic が発表した「Fable 5」は、ユーザーがボタンを1回押すだけで、独自の世界観を持つ面白おかしいビデオゲームを自動生成する機能を備えている。

TechCrunch AI·6月10日·★★★★

AI のエンジニアリング速度への計測可能な影響（4 分読了）

TLDR AI が発表した初期研究によると、多くの組織で AI 導入によりプルリクエストの処理量が約 10〜15%増加し、中央値では 8%の上昇が見られる。しかしコーディングは開発業務の一部に過ぎず、レビューや計画、テスト、調整におけるボトルネックが全体の速度向上を制限している。

TLDR AI·6月9日·★★★★

「バトルシップ」ゲームを通じて AI エージェントにより良い質問をさせる方法を教える

MIT の研究者らが、不確実な環境で広範な解決策を尋ねる必要がある医療診断や科学発見の課題に対し、AI エージェントがより効果的な質問を行う能力を向上させる手法として「バトルシップ」ゲームを活用する研究を発表した。

MIT ML News·6月4日·★★★★

視覚 AI の次なる最前線はコードである（11 分読了）

TLDR AI は、視覚 AI が最終的なピクセル出力の生成から編集可能なアーティファクトのソースコード作成へ移行し、デザインや 3D モデリングのワークフローを変革していることを報告した。

TLDR AI·6月3日·★★★★

マイクロソフト、新しい MAI モデルを発表

マイクロソフトは今朝、推論に特化した「MAI-Thinking-1」と GitHub コード生成向けに設計された「MAI-Code-1-Flash」の 2 つの新しいテキスト大規模言語モデルを発表した。

Simon Willison Blog·6月3日·★★★★

Cursor 開発者習慣レポート（1 分で読めます）

AI コードエディタ「Cursor」が、自社のユーザーデータに基づき、開発者が AI をどのように活用しているかを示す習慣に関する報告書を公開した。

TLDR AI·5月29日·★★★★

CodeRabbit が Claude を活用してエージェントオーケストレーションシステムを構築した方法

開発支援ツール「CodeRabbit」が、AI モデル「Claude」を活用し、複数のエージェントを制御・連携させるオーケストレーションシステムの構築に成功しました。

Claude Blog·5月27日·★★★★

Google の AI エージェントは本当に 916 ドルで OS を構築したのか？

Google は開発者会議で、単一のプロンプトと約 900 ドルの API 費用で数十のサブエージェントが OS を構築したと主張したが、その実態について疑問を呈している。

AI Snake Oil·5月23日·★★★★

OpenAI のコード生成ツール「Codex」が ChatGPT モバイルアプリに搭載

OpenAI は、デスクトップ向け AI ツール「Codex」の機能を ChatGPT モバイルアプリにも導入した。これは競合他社の Claude Code 人気への対抗策として急ピッチで開発されたものである。

The Verge AI·5月15日·★★★★

本日は特に目立った出来事なし

AIニュースの週報（2026年5月6日〜8日）において、12件のサブレッドや544件のツイートを調査したが、特筆すべき技術進展や業界動向は確認されなかった。

Smol AI News·5月8日·★★★★

OpenAI Codex が macOS および Windows の Chrome で直接動作可能に

OpenAI は、Codex を macOS と Windows の Chrome ブラウザで直接利用可能にする機能を公開した。この機能は背景で並列処理を行い、ブラウザを乗っ取らずに構造化ページや複雑なデータフローの反復作業をコード生成によって自動化する。

TLDR AI·5月8日·★★★★

ProgramBench：ソースコードなしでソフトウェアを再現するエージェント評価ベンチマーク

ProgramBench は、ドキュメントと実験のみを用いてソースコードなしでソフトウェア実行ファイルを再構築する課題を提供し、200 のタスクにわたる 248,000 以上の動作テストを通じて、外部支援や逆コンパイルを排除した環境でのソフトウェア設計・実装能力を評価します。

TLDR AI·5月7日·★★★★

Datasette リファラーポリシープラグイン 0.1 のリリース

Simon Willison が開発した Datasette の拡張機能「datasette-referrer-policy」バージョン 0.1 を公開し、OpenStreetMap タイルの表示不具合を修正するバグフィックスを行った。

Simon Willison Blog·5月6日

メンテナ月間へようこそ：コードの背後にいる人々を称える

オープンソースの未来について議論されたイベントで、AI がコード作成を担うようになるほど、人間によるメンタリングや信頼構築といった目に見えない作業が重要になると指摘されました。

GitHub Blog·5月5日·★★★★

AI エージェントによる GPU カーネル変換の自動化：cuTile Python から cuTile.jl へ

NVIDIA は、AI エージェントを活用して CUDA Tile（cuTile）のプログラミングモデルを拡張し、Python で記述されたカーネルを Julia の cuTile.jl 形式へ自動的に変換する手法を発表した。これにより、開発者は異なる言語間での GPU 最適化コードの移行が容易になる。

NVIDIA Developer Blog·5月1日·★★★★

Windsurf 2.1.29 の新機能：ターミナル向け Devin エージェントの提供開始

Windsurf はバージョン 2.1.29 で、既存サブスクリプションユーザーが利用可能な CLI エージェント「Devin for Terminal」を追加した。このエージェントはローカル環境でコードベースやツールに完全アクセスでき、必要に応じてクラウド上の Devin に処理をシームレスに移行できる機能を備えている。

Windsurf Changelog·4月28日

OpenAI、GPT-5.5を発表、「新クラスの知能」を謳うもAPI料金は倍額

OpenAIは複数のツールを切り替えて複雑なタスクを自律的に処理するエージェント型モデル「GPT-5.5」を発表した。API料金は従来比2倍となっている。

The Decoder·4月24日·★★★★

OpenAI、新GPT-5.5モデルを発表：コーディング能力と効率性を強化

OpenAIは新GPT-5.5モデルを発表し、コード作成やデバッグで優れ、より効率的かつ直感的な利用が可能だと主張した。これは既存のGPT-5.4をさらに進化したものとして、コンピュータでの作業方法を変える次世代モデルへの一歩としている。

The Verge AI·4月24日·★★★★

オープンソース、SaaS、そして無制限コード生成後の沈黙

AI企業が無制限コード生成を提供した後、開発者からのフィードバックが減少し、オープンソースとSaaSモデルに影響を与えている。

Andrej Karpathy 厳選·2月28日·★★★★

Amazon Novaの強化学習ファインチューニング：フィードバックを通じてAIを教育

Amazonは、汎用AIと特定のビジネスニーズのギャップを埋めるため、Amazon Novaモデルにドメイン知識を組み込む強化学習ファインチューニング手法を開発した。

AWS Machine Learning Blog·2月27日·★★★★

Claude CodeによるクリーンルームZ80/ZX Spectrumエミュレータの実装

AnthropicがOpus 4.6にクリーンルーム環境でCコンパイラをRustで書かせる実験を行ったが、その方法論には疑問が残る。

Andrej Karpathy 厳選·2月25日

速さは良さに非ず：AnthropicとOpenAIの高速モードに潜むもの

AnthropicとOpenAIがAIプログラミング向けの高速モードをほぼ同時に発表したが、技術アプローチは大きく異なる。Anthropicは同一モデルを2.5倍高速化し6倍の価格設定、OpenAIは蒸留モデルを専用チップで1000トークン/秒を実現しており、速度競争の背景には異なる製品哲学が存在する。

宝玉的分享·2月15日·★★★★

Opus 4.6、Codex 5.3、そしてベンチマーク後の時代

OpenAIとAnthropicは2月5日、それぞれコーディング支援モデル「GPT-5.3-Codex」と「Claude Opus 4.6」を発表した。Anthropicは既存のClaude Codeによる性能向上で注目を集めており、ソフトウェア開発の変革とML研究の加速が示唆されている。

Interconnects·2月9日·★★★★

Claude Opus 4.6の紹介

AnthropicがClaude Opus 4.6を発表した。この新バージョンは、AIアシスタントの性能向上を目指すリリースである。

Anthropic News·2月5日·★★★★★