#prompt engineering のAIニュース

82件の記事

Claude Fable のフィールドガイド：未知の領域を見つける方法

Anthropic は、Claude Fabel を活用して技術的な不明点を特定し、解決するための実践的なガイドを公開しました。

Fable の判断力を活用する重要性について

Simon Willison は、AIE で開催された Fireside Chat で Cat Wu と Thariq Shihipar が示した通り、Fable や Opus といった AI エージェントに作業方法を指示するのではなく、自らの判断力（ジャッジメント）を任せるべきだと述べています。

Simon Willison Blog·7月4日·★★★★

自動研究、Claude、そして制約付き最適化（13 分読了）

ある研究者は、未知から成功への道筋が明確な勾配最適化問題に「自動研究」手法を適用し、測定可能で厳密に制約された指標を持つ課題に対してこのアプローチが有効であることを発見した。

TLDR AI·7月3日

DSPy を用いた Datasette Agent の SQL システムプロンプトの評価と改善

Simon Willison は、Stanford NLP が開発した DSPy というフレームワークを活用し、Datasette Agent が生成する SQL 用のシステムプロンプトを評価・改善する研究を行いました。

Simon Willison Blog·7月3日·★★★★

スキルエンジニアリングとワンショット AI デザインへの異論

Impeccable のポール・バカウス氏は、AI エージェントの能力向上に「スキルエンジニアリング」が重要だと主張する一方、創造プロセスから人間を排除すべきではないと強調している。

Latent Space·7月2日·★★★★

生成AIの利活用事例に関するLT会を開催しました！ Hacking Fest 2026 Spring 開催レポート

LY Corp Tech Blog·7月2日

SkillOpt：エージェントのスキルを学習可能なパラメータとして扱う手法

Microsoft Research は、AI エージェントのスキル編集を手動からトレーニングプロセスへ転換する「SkillOpt」を発表した。この手法は固定されたモデル外部でスキルファイルを学習可能パラメータと見なし、モデル重みを変更せずにエージェントの動作信頼性を向上させる。

Microsoft Research·7月1日·★★★★

AI ネイティブな開発実践への道

メルカリ NFT チームが、4 ヶ月間にわたり開発手法を大規模に刷新し、人的介入を最小限にしたサービス構築を目指す取り組みと、その過程で得た知見について報告している。

Mercari Engineering·6月30日·★★★★

コーディングエージェントの品質向上サイクルを推進する

Google は、プロンプト修正が本番環境に広範な回帰を引き起こす懸念に対処するため、データ準備から推論実行、評価までの5段階評価サイクルを自動化する新しい開発者スキルを発表した。

Google Developers AI·6月30日·★★★★

「評価が難しい」というのは製品上の欠陥である

ハメル・フサイン氏は、AI モデルの評価プロセスにおいて「評価が困難」と感じられる現象は、設計上の欠陥（プロダクトスメルの兆候）であると指摘し、改善の必要性を訴えている。

Hamel Husain·6月29日·★★★★

LLM は学習曲線がないという考えへの反論

Simon Willison が Timothy B. Lee の発言を紹介し、大規模言語モデル（LLM）を使ってもスキルや学習が必要ないとする考えは誤りだと指摘した。

Simon Willison Blog·6月27日

Cisco AI、FAPO（パイプライン対応プロンプト最適化）を発表：ステップごとの失敗特定とClaude Codeによるオーケストレーションを実現

Cisco AIは、LLMアプリケーションの信頼性向上を目的とした「FAPO」というシステムを導入した。これはClaude Codeを活用し、多段階パイプラインにおける各ステップの失敗箇所を特定しながらプロンプトを自動最適化する技術である。

MarkTechPost·6月21日·★★★★

同じプロンプトを何度も書きたくないので、AIとのやりとりを棚卸しする仕組み作った

LayerX Tech Blog·6月18日

各トークンからより多くを引き出す：Copilot のコンテキスト処理とモデルルーティングの改善方法

GitHub は、Copilot が計画やデバッグなど長期間にわたるエージェントタスクを遂行する際、トークンの使用効率を高めるため、コンテキストの重複削減と用途に応じた適切なモデル選択機能を強化した。

GitHub Blog·6月18日·★★★★

GitHub Copilot CLI 初心者向け：一般的なスラッシュコマンドの概要

GitHub は、GitHub Copilot CLI の初心者向けシリーズで、スラッシュコマンドの意味や重要性、効率的な使用方法を解説し、モデル切り替えやトークン使用量の確認などのタスクを紹介した。

GitHub Blog·6月16日

Mermaidでうまく図解できなかったので、図解を作るエージェントスキルを書いた

Algomatic Tech Blog·6月12日

[AINews] ループクラフト：ループを積み重ねる芸術

Steipete氏、Boris氏、Andrej氏らは、コーディングエージェントへのプロンプト依存から脱却し、エージェントに作業を任せるための「ループ設計」の重要性を強調している。

Latent Space·6月12日·★★★★

LLM に話させず、内部状態を直接プローブせよ（8 分読了）

TLDR AI は、大規模言語モデルがトークンを生成する前に内部状態に答えが存在することを示し、最後のプロンプトトークンの隠れ状態を抽出して小型ニューラルネットワークに入力することで、モデルを英語で記述された分類器として動作させる手法を紹介した。

TLDR AI·6月11日·★★★★

テキストを本格的な最適化レイヤーとして位置づける（8 分読了）

TLDR AI は、テキストデータを単なる情報源ではなく、システム性能を向上させるための重要な最適化層として再評価するべきだと主張している。

TLDR AI·6月10日

エージェントハッチは自己修復するべきである（8 分読了）

TLDR AI は、AI エージェントが自身の不具合を検知し、自動的に修正・修復を行う仕組みの重要性について論じている。

TLDR AI·6月9日·★★★★

Anthropic の Claude スキル構築完全ガイド

Anthropic は、Claude のスキルを技術的に定義する方法から設計・実装、テスト、配布までの完全な手順と、失敗時の対処法を解説したガイドを発表しました。

KDnuggets·6月8日·★★★★

素晴らしいデジタル入れ歯（失敗したプロジェクト）

Hugging Face ブログは、デジタル技術を用いた入れ歯の開発プロジェクトが最終的に失敗に終わった経緯と教訓について報告している。

Hugging Face Blog·6月8日

Claude Code の構築から学んだこと：スキル活用方法について

Anthropic は、Claude Code の開発過程で得た教訓を共有し、同ツールがどのように「スキル」機能を活用しているかを解説した。

Claude Blog·6月3日·★★★★

ターゲットユーザーの“意識のズレ”をどうAIに組み込むか？——「AIペルソナ」が開発メンバーの相談相手になる日を目指して

DeNA Engineering·6月3日·★★★★

Simon Willison Blog の llm-anthropic バージョン 0.25.1 リリース

Simon Willison が公開したライブラリ「llm-anthropic」のバージョン 0.25.1 で、Anthropic の新モデル「Claude Opus 4.8」が追加され、組織向けに高速モード機能も利用可能になった。

Simon Willison Blog·5月29日

LangGraph と LangSmith を活用した Lyft のセルフサービス AI エージェントプラットフォーム構築事例

ライドシェア企業の Lyft が、LangChain の LangGraph と LangSmith を利用し、開発者が独自に AI エージェントを構築・管理できるセルフサービスプラットフォームを構築した手法について紹介している。

LangChain Blog·5月28日·★★★★

CodeRabbit が Claude を活用してエージェントオーケストレーションシステムを構築した方法

開発支援ツール「CodeRabbit」が、AI モデル「Claude」を活用し、複数のエージェントを制御・連携させるオーケストレーションシステムの構築に成功しました。

Claude Blog·5月27日·★★★★

Harness、Scaffold、そして AI エージェントに関する重要な用語を正しく理解する

Hugging Face Blog は、AI エージェント分野で頻出する「Harness」や「Scaffold」といった専門用語の正確な定義と使い分けについて解説し、業界関係者がこれらの概念を誤解なく共有できるようガイドしている。

Hugging Face Blog·5月25日·★★★★

大規模なマルチエージェントシステムの評価（48 分読了）

TLDR AI が、大規模なマルチエージェントシステムをどのように評価するかについて解説している。

TLDR AI·5月25日·★★★★

Google の AI エージェントは本当に 916 ドルで OS を構築したのか？

Google は開発者会議で、単一のプロンプトと約 900 ドルの API 費用で数十のサブエージェントが OS を構築したと主張したが、その実態について疑問を呈している。

AI Snake Oil·5月23日·★★★★

Grok Imagine Video 1.5 のプロンプト作成方法

Replicate が、X（旧 Twitter）の AI「Grok」が生成する動画モデル「Imagine Video 1.5」を効果的に操作するためのプロンプト作成ガイドを発表した。

Replicate·5月21日·★★★★

第一原理からエージェントを構築する方法（15 分読了）

Mishra は TRL や Unsloth などの抽象化を取り除き、すべてのエージェント学習システムが「プロンプト→モデル行動→環境→報酬→勾配更新」という同じループに還元されることを示した。また、純粋な Python でテキストから図を作成する玩具型エージェントを構築し、JSON の妥当性やレイアウト品質などを組み合わせた報酬関数を層状に追加する方法を紹介している。

TLDR AI·5月21日·★★★★

エージェント技術の習得：AI エージェントのカスタマイズ

NVIDIA は、開発者が AI エージェントを独自にカスタマイズし、複雑なタスクを処理できるようにする手法について解説している。

NVIDIA Developer Blog·5月21日·★★★★

Claude Code の活用：HTML が持つ驚くべき効果（10 分読了）

Anthropic は、Claude Code が HTML を使用することで、レイアウトやデータテーブル、インタラクティブ要素を効果的に扱えるようになり、仕様書やデザインのプロトタイピング、カスタム編集インターフェースの作成において、読みやすさや共有・対話能力が向上すると発表しました。

TLDR AI·5月20日

Lovable で反復する指示を再利用可能なスキルに変換する方法（14 分読了）

開発者向けツール「Lovable」が、繰り返し使用する指示を再利用可能なスキルとして登録・管理できる機能を追加した。これにより、AI によるコード生成やタスク実行の効率化が可能となる。

TLDR AI·5月19日·★★★★

コンテンツモデレーションのための Amazon Nova 2 のプロンプト手法

AWS は、大規模なユーザー生成コンテンツのモデレーションにおいて、ポリシー違反を正確に検知しつつ誤検知を防ぐシステム構築のため、Amazon Nova 2 を活用したカスタマイズ可能なプロンプト手法を発表しました。

AWS Machine Learning Blog·5月19日·★★★★

隠されたスキルギャップ：SQL と Python の知識だけではもはや不十分である理由

KDnuggets は、データサイエンティストやエンジニアが SQL と Python を習得しても、AI 時代には追加のスキルが必要であると指摘し、このスキルギャップの拡大を警告している。

KDnuggets·5月19日·★★★★

Promptimus：手動エンジニアリングなしで既存の優れた LLM プロンプトを改善する手法

大規模言語モデル（LLM）の企業利用において、複雑なビジネスロジックや規制要件を反映したプロンプトは通常、ドメイン専門家が手作業で作成しています。本研究では、Promptimus という手法が、人間の手を加えることなく、すでに良好なプロンプトの性能をさらに向上させることを示しました。

Amazon Science·5月14日·★★★★

LangSmith コンテキストハブの紹介

ラングエクス（LangSmith）が、開発者が AI アプリケーションのコンテキストを管理・共有できる新機能「コンテキストハブ」を発表した。これにより、モデルの動作改善やデバッグ効率が向上する。

LangChain Blog·5月14日·★★★★

[AINews] フィンチューニングの終焉

OpenAI がフィンチューニング API の廃止を発表し、長年大手ラボの中でこの機能を支えてきた同社が、そのサポートを終了させる方針を示した。

Latent Space·5月13日·★★★★

GM、AIスキルを持つ人材へ切り替えのため数百人のIT従業員を解雇

ゼネラルモーターズ（GM）は、より高度な人工知能のスキルを持つ人材を採用するために、既存のIT従業員約数百人を解雇した。これは同社が業務効率化と技術革新のために組織再編を行ったことを示している。

TechCrunch AI·5月12日·★★★★

スクリプトのシェバング行に大規模言語モデルを使用する

開発者がテキストファイルの先頭にシェバング記述を追加し、LLM を直接実行可能にする実験的パターンを紹介した。

Simon Willison Blog·5月12日

人からAIへのフィードバックデザインパターン

LayerX Tech Blog·5月8日

Claude Code を使用して HTML に驚異的な効果をもたらす方法

Anthropic が提供する AI ツール「Claude Code」を活用することで、HTML コードの生成や修正において従来よりもはるかに効率的で高品質な結果を得られることが示されています。

宝玉的分享·5月8日·★★★★

vLLM のルーティングと KV キャッシュに関する解説

vLLM が提供する高速推論技術において、リクエストを分散するルーティング手法と、計算効率を高める KV キャッシュ管理の仕組みについて詳しく解説しています。

TLDR AI·5月4日·★★★★

AI と協働し、複利効果を高める方法

本記事は、個人や組織が AI ツールを日常的に活用することで、知識や成果を蓄積・増幅させ、長期的な競争優位性を築く具体的な戦略と実践方法を解説している。

Eugene Yan·5月3日

品質の言語化のススメー早期テストの原則をClaude Code Agent Skillsで実現する試み

LayerX Tech Blog·5月1日

SKILL.md を作成する際に実際に記述すべき内容（15 分読了）

著者は、開発者が SKILL.md ファイルを作成する際、単なるスキルリストではなく、具体的な技術的課題への解決策や実践的な知見を体系的に記録する重要性について解説している。

TLDR AI·5月1日

OpenAI の Codex CLI が新機能「/goal」を追加

OpenAI はコーディングエージェント「Codex CLI」のバージョン0.128.0をリリースし、ユーザーが目標を設定すると完了するまで自動でループ処理を行う新機能「/goal」を追加した。

Simon Willison Blog·5月1日·★★★★

LLM-as-a-Judge を人間の嗜好に整合させる研究

研究者らが、大規模言語モデルを評価者として用いる手法を改善し、その判断基準が人間の実際の嗜好と一致するよう調整する新しいアプローチを発表した。

LangChain Blog·5月1日·★★★★

1 / 2次へ →