xAI、Grok Build に「/goal」モードを追加し、多段階コーディングタスクにおける自律実行と内蔵検証機能を強化
xAI は開発者向け CLI ツール「Grok Build」に、長期間の自律的な実行と組み込み検証機能を備えた新モード「/goal」を追加し、複雑なコーディングタスクの自動化を強化した。
キーポイント
/goal モードの機能概要
単一の目標指示でエージェントが計画立案から実行、検証までを自律的に行うモードであり、従来の手動確認ループを不要にする。
組み込み検証メカニズム
コードの記述だけでなく、Web ページの閲覧やスクリプトの実行などを通じてタスクが完了するまで継続的に検証を行う仕組みを持つ。
実行中の制御と可視化
進行状況のチェックリスト表示に加え、status, pause, resume, clear コマンドで実行中のエージェントをリアルタイムに操作可能。
アクセス要件と導入方法
SuperGrok または X Premium Plus のサブスクリプションが必要であり、curl コマンドによる CLI インストールとサインインで利用開始できる。
組み込み検証機能
エージェントは生成したコードのレビュー、ウェブページの動作確認、スクリプト実行によるテストなど、3 つの形式で自己検証を行い、完了前に出力が正しく動作することを確認します。
ステアリングコマンド
/goal status, pause, resume, clear の各コマンドにより、実行中の長期タスクの進行状況確認や一時停止・再開が可能で、自律的なファイル編集やスクリプト実行時の制御を強化します。
明確なライフサイクル管理
単なる対話型タスクではなく、明示的なゴールオブジェクトと自動検証ステップを持つことで、多段階にわたる複雑なコーディング作業(モジュール移行やリファクタリングなど)を自律的に完遂します。
影響分析・編集コメントを表示
影響分析
この新機能は、AI エージェントが単なるコード生成ツールから、複雑な開発タスクを自律的に完遂する「実働部隊」へと進化することを示す重要な転換点です。特に、実行結果の検証を内部ループに組み込むことで、開発現場における AI 利用の信頼性と効率性を劇的に高める可能性があります。
編集コメント
開発者の負担を減らし、複雑なタスクの完遂率を高める「自律実行+検証」のパラダイムは、次世代の開発ワークフローにおいて極めて重要です。
xAI は、ターミナルコーディングエージェントである Grok Build の内部に、/goal という新しいモードをリリースしました。この機能は、長時間実行される自律的なタスクの実行を対象としています。ユーザーは大規模な実装タスクをエージェントに渡すだけで、あとは見守るだけです。
ほとんどのコーディングセッションでは、実行と検証の往復が必要となります。プロンプトを入力するとエージェントが行動し、ユーザーが各ステップを検証します。/goal はこのループを変えます。エージェントはタスクが完了し、検証されるまで働き続けます。検証には、コードのレビュー、ウェブページの検査、スクリプトの実行などが含まれます。
このモードは、自律性を一つのコマンドと視覚的な進捗チェックリストにパッケージ化しています。
TL;DR(要約)
/goal は、Grok Build のターミナルエージェント内で長時間実行される自律タスクを実行します。
アプローチを計画し、チェックリストを作成し、実行して検証し、完了するまでこれを繰り返します。
検証には、コードのレビュー、ウェブページの検査、スクリプトの実行が含まれます。
status(ステータス)、pause(一時停止)、resume(再開)、clear(クリア)コマンドで、実行中のタスクを制御できます。
利用には、SuperGrok または X Premium Plus のサブスクリプションが必要です。
/goal とは何か
/goal は、別個の製品ではなく、Grok Build 内のモードです。Grok Build は xAI が提供するソフトウェアエンジニアリング用のコーディングエージェントおよび CLI(コマンドラインインターフェース)です。CLI はターミナル内で動作するコマンドラインツールであり、ローカルコードベースに対してファイルの読み込みやコマンドの実行を行います。
Grok Build にはすでにいくつかのエージェント機能が搭載されています。プランモードでは、ユーザーがプランを承認するまで編集がブロックされます。また、大規模な作業は並列で実行される専門的なサブエージェントに委任されます。AGENTS.md ファイル、プラグイン、フック、スキル、MCP サーバーをそのまま読み込むことができます。MCP は、エージェントを外部ツールやデータに接続するためのプロトコルです。
アクセスには SuperGrok または X Premium Plus の購読が必要です。CLI は 1 つのコマンドでインストールできます:
Copy CodeCopiedUse a different Browser
curl -fsSL https://x.ai/cli/install.sh | bash
その後、アカウントでサインインして /goal を呼び出します。このモードは引継ぎのために設計されています。ユーザーが 1 つの目標を記述すると、エージェントが多段階の作業を引き受けます。
なぜ長時間実行型の実行が重要なのか
エージェントには単一のプロンプトではなく、目標が与えられます。ステップを計画し、それを実行し、結果を観察し、現実との乖離が生じた場合は再計画を行います。これが「観測–計画–実行」のループです。その代償として可視性が課題となります:長時間の実行では監視すべきアクションが多くなります。/goal は進捗チェックリストとステアリングコマンドによってこの課題に対応します。
/how_goal の仕組み
目標は 1 行で設定します。Grok Build セッション内に入力し、システムシェルではありません。例えば:
Copy CodeCopiedUse a different Browser
/goal Migrate the auth module to the new API
Grok Build はその目標に対するアプローチを計画します。作業を進捗チェックリストに分割し、その後、チェックリストの項目を 1 つずつ実行していきます。
実行中はロックアウトされることはありません。動作中に追加の指示を共有し続けることができます。ゴールが完了すると、パネルは「完了」に切り替わり、すべてのチェックリスト項目がチェック済みとして表示されます。
検証ステップ
注目すべき詳細は検証です。/goal はコードを書くだけで終わるのではなく、タスクが完了し、検証されるまで続行します。
xAI によると、検証には3つの形態があります。エージェントは自身が生成したコードをレビューするかもしれません。動作を確認するためにウェブページを検査するかもしれません。結果をテストするためにスクリプトを実行するかもしれません。
これは自律的な実行において重要です。ファイルの編集のみを行うエージェントは、変更が機能する前に成功を報告する可能性があります。実行プロセスに検証を組み込むことは、エージェントが完了する前に自身の出力をテストすることを意味します。
インタラクティブデモ
(function(){
window.addEventListener('message', function(e){
var d = e.data || {};
if(d && d.type === 'mtp-goal-resize' && d.height){
var f = document.getElementById('mtp-goal-iframe');
if(f){ f.style.height = d.height + 'px'; }
}
});
})();
使用例と具体例
モジュールの移行が主な例です。「/goal Migrate the auth module to the new API」は、複数ファイルにわたる変更をカバーします。このタスクは長く、機械的であり、検証可能です。
他の実用的な引き継ぎも同じ形状に適しています:
サービスのリファクタリングを行い、その後テストスイートを実行してビルドが成功したことを確認する。
エンドポイントを追加し、ランタイムエラーがないかレンダリングされたページを検査する。
依存関係のアップグレードを行い、ビルドを実行して発生した不具合を修正する。
設定をファイル間で移行し、スクリプトを実行して検証します。
各タスクは、即座に 1 行の編集を行うよりも、自律的なゴールに適しています。その効果が発揮されるのは、通常であれば監督が必要となる多くのステップにわたる作業が行われる場合です。
長期実行中のゴールを制御する
/goal コマンドは、実行を監視し制御するために追加されました。これらは Grok Build セッション内で直接入力します:
コピーコードコピー済み別のブラウザを使用する
/goal status # 進行状況パネルを確認
/goal pause # 作業を停止し、ゴールを保持
/goal resume # 中断した地点から再開
/goal clear # ゴールを完全に削除
status コマンドは、ライブの進行状況パネルを表示します。pause は作業を一時停止しますが、ゴール自体は維持されます。resume は停止した地点から継続します。clear はゴールを完全に削除し、最初からやり直します。
これらの制御機能は、無人実行において重要です。エージェントが自律的にファイルを編集したりスクリプトを実行したりする場合でも、いつでも作業を一時停止したり、ゴールを破棄したりできます。
/goal の比較
/goal は、すでに多ステップの作業を実行しているターミナルベースのコーディングエージェント群の中に位置しています。それが追加するものは、明示的で制御可能なゴールオブジェクトです。名前付きのライフサイクルコマンドと組み込みの検証ステップが新たな要素となります。
次元 Grok Build /goal Claude Code OpenAI Codex CLI Cursor Agent Mode
ハンドオフモデル 1 行のゴールオブジェクト 会話型 + タスクリスト 承認モード付きプロンプト IDE 内のチャット指示
進捗表示 自動チェックリスト + ライブパネル 内部の ToDo リスト ステップバイステップログ インライン編集ストリーム
ステアリングコントロール:ステータス表示 /一時停止/再開/クリア
中断して再プロンプト
ステップの承認/拒否
編集の承認/拒否
検証:完了するまで実行し、検証される。指示されたときにテストを実行。指示されたときにテストを実行。指示されたときにテストを実行。
実行場所:ターミナル(TUI、ヘッドレス、ACP)
ターミナル
ターミナル
IDE 統合型
アクセス権限:SuperGrok / X Premium Plus
サブスクリプションまたは API
サブスクリプションまたは API
主要ポイント
/goal は Grok Build のターミナルエージェント内で長時間実行される自律タスクを実行します。
アプローチを計画し、チェックリストを作成し、実行して完了するまで検証を行います。
検証ではコードのレビュー、ウェブページの検査、スクリプトの実行が可能です。
ステータス表示、一時停止、再開、クリアでライブ実行を制御できます。
アクセスには SuperGrok または X Premium Plus のサブスクリプションが必要です。
コミュニティの反応
(function(){
window.addEventListener('message', function(e){
var d = e.data || {};
if(d && d.type === 'mtp-reactions-resize' && d.height){
var f = document.getElementById('mtp-reactions-iframe');
if(f){ f.style.height = d.height + 'px'; }
}
});
})();
技術詳細をご覧ください。また、Twitter でフォローしていただき、150k+ ML の SubReddit に参加し、ニュースレターを購読することもご自由にどうぞ。待ってください!Telegram をご利用ですか?今なら Telegram でも私たちに参加できます。
GitHub リポジトリや Hugging Face ページ、製品リリース、ウェビナーなどのプロモーションのためにパートナーシップをご検討ですか?ぜひご連絡ください。
xAI が Grok Build に /goal を導入し、多段階コーディングタスクのために内蔵検証機能を備えた長時間実行可能な自律型実行を追加したという投稿は、MarkTechPost で最初に発表されました。
原文を表示
xAI shipped a new mode called /goal inside Grok Build, its terminal coding agent. The feature targets long-running, autonomous task execution. You hand the agent a larger implementation task, then step back.
Most coding sessions require back-and-forth execution and verification. You prompt, the agent acts, and you verify each step. /goal changes that loop. The agent keeps working until a task is completed and verified. Verification can mean reviewing code, inspecting webpages, or executing scripts.
The mode packages that autonomy behind one command and a visible progress checklist.
TL;DR
/goal runs long, autonomous tasks inside Grok Build’s terminal agent.
It plans an approach, builds a checklist, executes, and verifies until complete.
Verification can review code, inspect webpages, or execute scripts.
status, pause, resume, and clear steer the live run.
Access needs a SuperGrok or X Premium Plus subscription.
What is /goal
/goal is a mode within Grok Build, not a separate product. Grok Build is xAI’s coding agent and CLI for software engineering. A CLI is a command-line tool that runs in your terminal. It works against your local codebase, reading files and running commands.
Grok Build already ships several agent features. It has a plan mode that blocks edits until you approve a plan. It delegates larger work to specialized subagents that run in parallel. It reads your AGENTS.md, plugins, hooks, skills, and MCP servers out of the box. MCP is a protocol that connects agents to external tools and data.
Access requires a SuperGrok or X Premium Plus subscription. You install the CLI with one command:
Copy CodeCopiedUse a different Browser
curl -fsSL https://x.ai/cli/install.sh | bash
You then sign in with your account and invoke /goal. The mode is built for handoff. You describe one objective, and the agent owns the multi-step work.
Why Long-Running Execution Matters
An agent is given a goal, not just a single prompt. It plans steps, executes them, observes results, and replans when reality diverges. That is the observe–plan–act loop. The trade-off is observability: long runs produce many actions you must monitor. /goal answers that with a progress checklist and steering commands.
How /goal Works
You set a goal in a single line. You type it inside the Grok Build session, not your system shell. For example:
Copy CodeCopiedUse a different Browser
/goal Migrate the auth module to the new API
Grok Build plans an approach for that objective. It breaks the work into a progress checklist. It then starts executing the checklist items one by one.
You are not locked out during the run. You can keep sharing additional instructions as it works. When the goal is finished, the panel flips to Complete. Every checklist item then shows as checked.
The Verification Step
The detail worth noting is verification. /goal does not stop at writing code. It continues until the task is completed and verified.
Verification, per xAI, can take three forms. The agent may review the code it produced. It may inspect webpages to confirm behavior. It may execute scripts to test the result.
This matters for autonomous runs. An agent that only edits files may report success before the change works. Building verification into the run means the agent tests its own output before it finishes.
Interactive Demo
(function(){
window.addEventListener('message', function(e){
var d = e.data || {};
if(d && d.type === 'mtp-goal-resize' && d.height){
var f = document.getElementById('mtp-goal-iframe');
if(f){ f.style.height = d.height + 'px'; }
}
});
})();
Use Cases With Examples
Module migration is the main example. /goal Migrate the auth module to the new API covers a multi-file change. The task is long, mechanical, and testable.
Other practical handoffs fit the same shape:
Refactor a service, then run its test suite to confirm a green build.
Add an endpoint, then inspect the rendered page for runtime errors.
Upgrade a dependency, execute the build, and fix the breakages.
Port a config across files, then run a script to validate it.
Each task suits an autonomous goal better than a quick one-line edit. The payoff comes when the work spans many steps you would otherwise supervise.
Steering a Long-Running Goal
/goal adds commands to monitor and steer the run. You type them inside the Grok Build session:
Copy CodeCopiedUse a different Browser
/goal status # see the live progress panel
/goal pause # stop work, keep the goal
/goal resume # pick back up
/goal clear # drop the goal entirely
status surfaces the live progress panel. pause halts work but keeps the goal intact. resume continues from where it stopped. clear drops the goal entirely and starts fresh.
These controls are important for unattended runs. You can pause work or drop the goal at any point. That helps when an agent edits files and runs scripts on its own.
How /goal Compares
/goal sits among terminal coding agents that already run multi-step work. What it adds is an explicit, steerable goal object. The named lifecycle commands and the built-in verification step are the new parts.
DimensionGrok Build /goalClaude CodeOpenAI Codex CLICursor Agent Mode
Handoff modelOne-line goal objectConversational + task listPrompt with approval modeChat instruction in IDE
Progress viewAuto checklist + live panelInternal to-do listStep-by-step logInline edit stream
Steering controlsstatus / pause / resume / clearInterrupt and repromptApprove / reject stepsAccept / reject edits
VerificationRuns until completed and verifiedRuns tests when instructedRuns tests when instructedRuns tests when instructed
Where it runsTerminal (TUI, headless, ACP)TerminalTerminalIDE-integrated
AccessSuperGrok / X Premium PlusSubscription or APISubscription or APISubscription
Key Takeaways
/goal runs long, autonomous tasks inside Grok Build’s terminal agent.
It plans an approach, builds a checklist, executes, and verifies until complete.
Verification can review code, inspect webpages, or execute scripts.
status, pause, resume, and clear steer the live run.
Access needs a SuperGrok or X Premium Plus subscription.
Community Reactions
(function(){
window.addEventListener('message', function(e){
var d = e.data || {};
if(d && d.type === 'mtp-reactions-resize' && d.height){
var f = document.getElementById('mtp-reactions-iframe');
if(f){ f.style.height = d.height + 'px'; }
}
});
})();
Check out the Technical details. Also, feel free to follow us on Twitter and don’t forget to join our 150k+ML SubReddit and Subscribe to our Newsletter. Wait! are you on telegram? now you can join us on telegram as well.
Need to partner with us for promoting your GitHub Repo OR Hugging Face Page OR Product Release OR Webinar etc.? Connect with us
The post xAI Launches /goal in Grok Build, Adding Long-Running Autonomous Execution With Built-In Verification for Multi-Step Coding Tasks appeared first on MarkTechPost.
関連記事
非同期コーディングエージェント「Open SWE」の公開を発表
LangChain が、開発者がコードを生成・修正できる非同期型のオープンソースコーディングエージェント「Open SWE」を公開した。
ゲオルギ・ジェルガノフ氏への言及:Qwen3.6-27B のコーディング能力について
Simon Willison は、Georgi Gerganov 氏が Qwen3.6-27B モデルをローカル環境でコーディングタスクにほぼ毎日使用しており、実用的なツールとして非常に有能力であると証言していることを紹介した。
AI エージェントの未来を確保する
Google DeepMind が、AI エージェントの安全性と信頼性を高めるための取り組みについて発表しました。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み