#prompt engineering のAIニュース
36件の記事
Google の AI エージェントは本当に 916 ドルで OS を構築したのか?
Google は開発者会議で、単一のプロンプトと約 900 ドルの API 費用で数十のサブエージェントが OS を構築したと主張したが、その実態について疑問を呈している。
第一原理からエージェントを構築する方法(15 分読了)
Mishra は TRL や Unsloth などの抽象化を取り除き、すべてのエージェント学習システムが「プロンプト→モデル行動→環境→報酬→勾配更新」という同じループに還元されることを示した。また、純粋な Python でテキストから図を作成する玩具型エージェントを構築し、JSON の妥当性やレイアウト品質などを組み合わせた報酬関数を層状に追加する方法を紹介している。
Claude Code の活用:HTML が持つ驚くべき効果(10 分読了)
Anthropic は、Claude Code が HTML を使用することで、レイアウトやデータテーブル、インタラクティブ要素を効果的に扱えるようになり、仕様書やデザインのプロトタイピング、カスタム編集インターフェースの作成において、読みやすさや共有・対話能力が向上すると発表しました。
コンテンツモデレーションのための Amazon Nova 2 のプロンプト手法
AWS は、大規模なユーザー生成コンテンツのモデレーションにおいて、ポリシー違反を正確に検知しつつ誤検知を防ぐシステム構築のため、Amazon Nova 2 を活用したカスタマイズ可能なプロンプト手法を発表しました。
Promptimus:手動エンジニアリングなしで既存の優れた LLM プロンプトを改善する手法
大規模言語モデル(LLM)の企業利用において、複雑なビジネスロジックや規制要件を反映したプロンプトは通常、ドメイン専門家が手作業で作成しています。本研究では、Promptimus という手法が、人間の手を加えることなく、すでに良好なプロンプトの性能をさらに向上させることを示しました。
[AINews] フィンチューニングの終焉
OpenAI がフィンチューニング API の廃止を発表し、長年大手ラボの中でこの機能を支えてきた同社が、そのサポートを終了させる方針を示した。
スクリプトのシェバング行に大規模言語モデルを使用する
開発者がテキストファイルの先頭にシェバング記述を追加し、LLM を直接実行可能にする実験的パターンを紹介した。
Claude Code の開発者が提唱:HTML が Markdown よりも効果的な出力フォーマットである理由
Anthropic の Claude Code チーム所属者、タリク・シヒパル氏は、AI に指示を出す際、Markdown ではなく HTML を出力フォーマットとして指定する方が、構造化された結果をより確実に得られると主張している。同氏は具体的な事例やプロンプト例を通じてこの手法の有効性を示している。
OpenAI の Codex CLI が新機能「/goal」を追加
OpenAI はコーディングエージェント「Codex CLI」のバージョン0.128.0をリリースし、ユーザーが目標を設定すると完了するまで自動でループ処理を行う新機能「/goal」を追加した。
異なるモデルと連携するよう深層エージェントを調整
Deep Agents は従来汎用的に設計されていたが、今日から OpenAI や Anthropic など各モデル固有のプロファイルを追加し、プロンプトやツールを最適化することでベンチマークスコアを 10〜20 ポイント向上させた。
エージェントは構造と柔軟性の間で選択できない
エージェント仕様にPythonとMarkdownのどちらを採用するかは、構造性と柔軟性のバランスが鍵となる。コード重視は信頼性が高いが適応性に欠け、Markdown重視は創造的だがエラーリスクがある。成功するエージェントアーキテクチャは、意図にMarkdownを、構造にコードを用いるハイブリッドアプローチを採用する。
Claude Codeの品質に関する最近の報告への更新(11分読)
Anthropicは、Claudeの回答品質が低下したとのフィードバックを受け、4月20日に問題を解決した。原因はClaude Code、Agent SDK、Coworkに影響する3つの変更だった。APIは影響を受けておらず、同社は再発防止の約束を示した。
Credit GenieがInsights Agentを活用し、AI財務アシスタントを改善した方法
Credit GenieはLangSmithのInsights Agentを活用し、顧客向けAI財務アシスタント「AskGenie」の品質を向上させた。この取り組みにより、アシスタントのパフォーマンスと精度が改善された。
プロンプトの風景
LangChain Hubは、大規模言語モデル(LLM)の推論、RAG、SQL、コード生成などの分野におけるプロンプトエンジニアリング手法を提供し、ユーザーがプロンプトの閲覧と管理を可能にする。
Opus 4.7 パート1:モデルカード
AnthropicはClaude Opus 4.7のモデルカード第1部を公開した。この文書は最初の6セクションをカバーし、モデルの福祉に関する懸念があるため第7部は除外されている。
思考の種:LLM に分布に忠実で多様な生成を促すプロンプト手法
研究チームは、大規模言語モデル(LLM)が確率分布に従って出力する際に生じるバイアスを指摘し、公平なコイン投げやアイデア生成において偏りを防ぐための新しいプロンプト手法「String Seed of Thought」を発表した。
コーディングエージェントの仕組み
サイモン・ウィリソン氏が、LLMを拡張するソフトウェアであるコーディングエージェントの内部動作を解説し、適切な活用方法を提案している。
AI駆動データエンジニアリングの発表
Dagster Universityが、AIコーディングエージェントを活用してプロダクションレディのELTパイプラインを構築する方法を教えるコースを提供している。これによりデータエンジニアの作業方法が変化している。
複数原稿の統合:手動での比較からワンクリックSkillへ
AIが生成した複数バージョンの原稿をAIが統合し、そのプロセスをSkillとして定型化することで、ワンクリックで完了できるようになる実践ガイドを提供する。
研究者は実際にAI科学ツールをどう使うか?25万件以上のクエリから得られた教訓
Asta Interaction Dataset(AID)は、25万件以上の実際の研究者によるクエリを含む。このデータは、科学者がAI研究ツールをどのように使用しているか、そしてその習慣がツールの開発者の期待とどこで異なるかを明らかにする。
Agent Builderでのメモリの活用方法
Agent Builderはユーザーのフィードバックを記憶し、修正や好みを学習することで、次回以降の作業をより効率的にサポートします。
ハーネスエンジニアリングによる深層エージェントの改善
Terminal Bench 2.0でコーディングエージェントがTop30からTop5に向上。ハーネスの変更のみで、自己検証とトレーシングが効果的だった。
LLM評価:知っておくべき全知識
Shreya氏と筆者は、700人以上のエンジニアやPMにAI評価を指導する中で得た質問を整理した。これは多くのケースで有効な鋭い意見であり、普遍的真理ではない。読者は自身の判断で活用すべきである。
メルペイ インターンでの挑戦と学び:EGP Cardsと向き合った3ヶ月間
メルペイのGrowth Platformでフロントエンド・エンジニアとしてインターンした経験談。EGP Cardsというプロジェクトに3ヶ月間取り組み、技術的挑戦と学びについて述べている。
フォワード・デプロイド・エンジニア(FDE)とは?顧客の業務改革を技術でリードするエンジニアの実像
FDEは顧客の現場で技術を活用し、業務改革をリードするエンジニアの役割を解説。AI Shiftのエンジニアが実例を紹介。
GPT-OSS-120Bに論理クイズや数学問題を解かせ、推論ログを詳細に分析した
オープンソースの大規模言語モデルGPT-OSS-120Bに論理クイズや数学問題を解かせ、その推論プロセスをログから詳細に分析した研究内容。
Cursorでプログラミング言語を再学習する方法――AI駆動学習の4ステップ
AI駆動の開発ツール「Cursor」を活用し、プログラミング言語を効率的に再学習するための4段階の実践的な学習方法を紹介する記事です。
最新AI技術情報をキャッチアップするAIエージェントを作成し、研究開発業務の一部を自動化した
AI技術の急速な進歩に追いつくため、AIエージェントを開発し、研究開発業務の一部を自動化する試みを実施した。
月末の「請求書まだですか?」をゼロに。LLM×Slackで構築した、フリーランスに優しい請求書回収アシスタント
LLMを活用したSlackボットで、フリーランスの請求書回収業務を効率化。AIが形式不備をアシストし、管理工数削減とパートナー体験向上を実現した事例。
カールパティのトークナイザー動画から書籍章を作成した方法
著者はSolveItプラットフォームを用い、アンドレイ・カールパティのトークナイザー動画チュートリアルを基に書籍章を作成した。SolveItは小さな検証可能なステップで問題を解決するアプローチであり、最終成果物には実行コードや追加解説が含まれる。
Solveit 公開:AI疲労への対抗策
fast.ai は、反復的問題解決を学ぶコースとプラットフォーム「Solveit」を公開した。これは AI を少量活用して学習しながら構築する手法を示し、AI 依存を避ける。小ステップと深い理解を重視するこのアプローチは、「バイブコーディング」の対極にある。
Claude Code hooksで始めるPromptOps:チームで意図を残す仕組み作り
Claude Codeをチームで活用する際、プロンプト共有の重要性を指摘し、その実践方法を紹介。AIエンジニアの知見共有環境を活かした取り組み。
言語モデルのためのバーチャルペルソナ:バックストーリー集によるアプローチ
言語モデルに多様なバックストーリーを与えることで、より豊かで個性的な仮想人格を構築する方法についての研究。
LLM-as-a-Judgeを用いた評価:完全ガイド
著者は30社以上の支援経験から、LLMを審査官としてAI出力を評価する手法の確立方法を解説する。多くのチームが指標過多などの失敗を繰り返す現状に対し、効果的な評価システムの構築手順を示している。
ファインチューニングは依然として価値があるか?
ハメル・フサイン氏は、ファインチューニングへの失望の声が増える中、多くの状況で依然として非常に価値があるとの見解を示した。
LLM搭載の自律型エージェント
大規模言語モデル(LLM)を中核コントローラーとする自律型エージェントの構築は、AutoGPTやBabyAGIなどの概念実証デモにより示唆されるように、単なるコンテンツ生成を超えた可能性を秘めている。