AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
Replicate·2026年5月21日 09:00·約12分で読める

Grok Imagine Video 1.5 のプロンプト作成方法

#Video Generation#xAI#Grok#Prompt Engineering#Multimodal AI
TL;DR

Replicate は、Grok Imagine Video 1.5 の美的精度と物理法則への適合性が大幅に向上したことを示す詳細なプロンプトガイドと具体的な生成例を公開し、ユーザーが最大限の性能を引き出す方法を解説している。

AI深層分析2026年6月13日 13:08
4
重要/ 5段階
深度40%
4
関連度30%
5
実用性20%
4
革新性10%
3

キーポイント

1

モデル性能の飛躍的向上

Grok Imagine Video 1.5 は、以前のバージョンに比べて美的精度と物理法則への適合性が大幅に改善されたことが強調されている。

2

詳細なプロンプトガイドの提供

モデルの能力を最大限引き出すための具体的なプロンプト作成手法や、どのような要素を含めるべきかに関するガイダンスが提示されている。

3

多様なシナリオでの検証事例

香港の雨夜、コスタリカの雲霧林、火明かりのクローズアップなど、異なる環境や照明条件における具体的な生成例と対応するプロンプトが紹介されている。

4

音響要素の統合

視覚的な描写だけでなく、雨音、ネオンの buzzing、風の音などの詳細なサウンドデザインを含むプロンプト例も含まれており、マルチモーダルな表現を重視している。

5

詳細な視覚的・聴覚的描写の統合

映像生成プロンプトでは、カメラアングルや動き(例:slow aerial push-in)だけでなく、音響効果(例:helicopter rotors, engine wail)を具体的に記述することで没入感を高める。

6

物理的現象の精密な描写

波の衝突やバイクのスライドなど、対象物の物理的な挙動(例:translucent green crest folding, sparks throwing)を詳細に記述することで、よりリアルな映像生成が可能になる。

7

微細な動きの描写

電話を耳から下ろす、頭をわずかに動かすなど、極めてゆっくりとした物理的動作を指定することでリアリズムを高める。

影響分析・編集コメントを表示

影響分析

この記事は、xAI の最新動画生成モデルが実用レベルに達しつつあることを示す重要な証拠であり、開発者やクリエイターに対して、より高度な制御と質の高い出力を得るための具体的な手法を提供します。特に物理法則の再現性向上は、映画制作やゲーム開発などの産業応用における信頼性を高める要因となります。

編集コメント

単なる機能紹介に留まらず、具体的なプロンプト例を通じて「どう使うか」を解説している点が非常に実用的です。物理挙動の改善は動画生成分野における長年の課題解決への大きな一歩と言えます。

私たちは特に、Grok Imagine Video 1.5 に大きな期待を抱いています。これは美学的な精度と物理法則への準拠が向上した、大きな飛躍です。このモデルの実際の能力を確認するために多数のプロンプトを試行し、また、このモデルから最大限の効果を引き出す方法を理解していただくためのプロンプティングガイドも作成しました。

ビデオ例

香港、午前2時

女性の視線はゆっくりとカメラから、目の前の舗装された地面へと落ちます。雨は周囲で激しく降り続き、ネオンサインをすり抜けています。赤と緑のネオンの反射が濡れた街路に波打っています。彼女のドレスの裾が、暖かい突風に揺れてわずかに動きます。音:舗装面やトタン屋根に打ち付ける激しい雨音、ネオンサインの低いブーンという音、遠くで消えていくスクーターのエンジン音、濡れた路面を走るタイヤのヒュルルという音。

コスタリカ、雲霧林

パンサーは苔むした丸太の上に完全に静止しており、琥珀色の瞳がカメラに直接ロックされています。その尾はゆっくりと一度だけ右へ掃きます。上からの光の筋がわずかに揺れ、周囲の霧が渦を巻いています。パンサーの鼻孔が一度膨らみ、その後耳が前方へと回転します。音:深い熱帯雨林の静寂、広葉樹への遠くの水滴る音、猫の胸の奥から聞こえるか聞こえないかの低い轟音、 canopy の高い位置からの一羽の鳥の声。

極近接ショット、火明かり

穏やかな暖かい風がフレーム内を吹き抜け、髪の毛の束をいくつか持ち上げ、彼女の頬を横切って漂い、やがて落ち着きます。彼女の肌にかかる火の光は呼吸するように揺らぎ、眉元に移り変わる影を投げかけます。彼女の表情は完全に静止したままです。音:フレーム外で燃える木材の柔らかい破裂音、ゆっくりとした吐息、外の風から聞こえる遠くの低いうめき声。

蝋燭の光

部屋の空気がゆっくりと呼吸するように通り過ぎる中、三本の蝋燭の炎が揺れ、左に曲がり、再び直立して落ち着きます。リネン布にかかる温かい琥珀色の光は、それぞれの揺らぎに合わせて変化し脈打っています。左側の蝋燭の芯からは細い煙の筋が立ち上ります。ろうそくの中心部分では溶けたロウがゆっくりと側面を伝って溜まり始めています。ワイングラスは、小さな動く反射として各々の揺ら捉えています。音:格式高い部屋の深い静寂、フレーム外どこかからの時計の微かなチクタクという音、燃える芯の柔らかい破裂音、ほとんど聞こえない息遣い。

上空から見たアイスランド

ターコイズ色の氷河川の流れに立つ小さな赤い人物に向かって、ゆっくりと空中から接近するカメラ。編まれたような水流が黒い砂の上をゆっくりとした渦を描いて流れています。カメラは下降しながら優しく左へ drifting します。人物は手を上げて太陽の光から目を守ります。薄い霧のヴェールがレンズの前を漂います。音:キャビンの内側から聞こえる遠くのヘリコプターのローターによるかすれた切断音、高高度の氷河からの風の激しい吹き抜け、下方にある融解水の流れの微かな轟音、パイロットのヘッドセットを通じた呼吸音。

自動二輪に乗る人物

スーパーバイクはフルスピードでコーナーを曲がりながら、さらに深くバンクし、膝スライダーがアスファルトを削り、後方に長いオレンジ色の火花の軌跡を残している。石造りの壁が動きの激しい流れの中でぼやけて通り過ぎる。ライダーがコーナー内でポジションを変えると、バイクのエグゾーストから二回ポップ音が鳴る。ライダーのヘルメットはアペックスに固定されたまま。音響:13,000 RPM で回転する 1000cc スーパーバイクエンジンによる高周波の絶叫、チタニウム製スライダーがアスファルトを削る金属的な摩擦音、カメラを通過する際にドップラー効果で変化する轟音、オーバーラン時のアフターマーケット製エグゾーストからの喉のようなポップ音。

Breaking wave

波は完全に頂点に達し、前方へ傾き、半透明の緑色の波頭が折れ曲がりながら暗い岩に激しく打ち落とされる。白い泡が上方および外側へと爆発的に噴出し、一瞬空中に留まった後に再び崩れ落ちる。朝風に乗って海水の霧がフレーム内を漂う。水は白い小川となって岩から引き返していく。その背後には、より小さな第二の波が立ち上がっている。音響:重たいうねりが岩に衝突する深い轟き、石の上を引き抜かれる水のヒス音と rushing 音、開放された海岸線全体を横切る風の低い唸り声、マイクにかかる海水の霧。

Dawn run, Bangkok

バンコクを走るランナーたちと共にカメラが横移動し、4 人全員が腕と足を完璧に同期させて全力疾走している。涼しい朝の空気の中で息が白く見える。先頭のランナーが一瞬カメラの方を見つめると、すぐに視線を前方に戻す。店のシャッター、駐輪したオートバイ、歩道の歩行者が激しい水平方向のモーションブラーと共に通り過ぎる。音:舗装路を走る靴のリズミカルな打撃音、重く同期した呼吸音、遠くのスクーターの唸り声、早朝の屋台市場から聞こえるかすかな雑談。

静かな午後

人物はゆっくりと電話を耳から下ろし、息をついて手を体の側に落とす。彼らはほとんど気づかないほど部屋の方へ頭を向け直す。金色の光の筋の中に塵の粒子が漂っている。猫が頭を持ち上げ、耳を動かす。CRT テレビが一瞬点滅する。薄手のカーテンがそよ風で揺れる。音:ガラス越しにかすんだ遠くの都市の交通騒音、画面外のどこかで水栓から滴る水の音、古いテレビからの柔らかい humming 音、木製の床の軋む音。

おそらく、これらは Grok Imagine 1.5 がどれほどまで拡張可能であるかの感覚を十分に与えてくれるだろう。

プロンプトの書き方

Grok Imagine 1.5 をかなり試行錯誤した結果、出力を本当に向上させるための以下のプロンプト作成のコツをまとめました。

「Sound:」セクションはサウンドデザイナーのように記述する

上記のすべての例には、明確な「Sound:」セクションが含まれています。この点をモデルに示し、動画内でどのように音声を設計したいかを説明することが、最終的な成果物の成否を分けます。

曖昧な例:*Sound: 街の音、雨。*

具体的な例:*Sound: 波打つ金属製の軒先で激しく打ち付ける大雨、ネオンサインのトランスフォーマーからの低いブーンという音、遠くで消えていくスクーターの音、濡れた路面を走るタイヤのヒュルルという音。

モデルは舗装された地面に降る雨と金属に降る雨の違いを理解しています。必要に応じて非常に詳細な指定を行うことも可能であり、モデルもそれに対応できます。

特に効果的な記述には以下のようなものがあります。「キャビンの内側から聞こえる」「マイクにかかる海飛沫」「パイロットのヘッドセットの呼吸音」「ガラス越しに聞こえるかすれた音」などです。これらはすべて、優れたサウンドスケープを構築するためにモデルが必要とする空間的・素材的な手がかりを示しています。

強度修飾語を使用する

これらの修飾語がない場合、モデルは規模感について独自の解釈を選択してしまいます。「波が crest する」という表現は曖昧です。一方、「波が完全に crest し、前方に傾きながら、圧倒的な力で落下する」は、はるかに具体的な描写となります。

例えば、バイクのシーンが機能するのは、「高く鋭く叫ぶような音」「オレンジ色の火花が長く続く軌跡」「カメラを抜けていく」といった表現があるからです。これらの言葉を削除すると、動画はより地味な内容になってしまいます。

カメラの動きを記述する

モデルは、動きを指示しない限り静止画として保持します。これは何も指定しない場合、一般的には正しい判断です。患者のような動きをする固定カメラは、不必要な動きよりも映画館で上映されるような質感を持ちます。しかし、特定のカメラワークを望む場合は、必ずその旨を明記してください。

機能するプロンプトの例:*slow push-in*(ゆっくりとズームイン)、*aerial push-in toward*(上空から対象へ向かってズームイン)、*camera drifts gently to the left*(カメラが優しく左に流れる)、*tracking shot alongside*(横を追いかけながら撮影)、*locked, static*(固定・静止)。アイスランドの映像クリップでは、「ゆっくりと上空からズームインする」「下降しながらカメラが優しく左へ流れる」という指示が必要です。

焦点を絞る

このモデルは、広範なプロンプトよりも焦点を絞ったプロンプトの方が処理に優れています。目のシーンでは3文で構成されています:「風が髪を揺らし」「光が瞬き」「表情は静止したまま」。ろうそくのシーンでは、各ろうそくごとに独自のマイクロアクションを与えています。特定のオブジェクトに集中しつつ、構図の他の要素は静止状態またはフェードアウトさせることも可能です。

画像から始める

Video 1.5 を効果的に使う最良の方法は、すでに調整済みの静止画(still)から始めることです。Grok Imagine Image などの画像生成ツールや、ご自身の写真を用いて、まず構図と照明を完璧に整えてください。フレームが適切に見えたら、動画プロンプトでは「何が変わるか」だけを記述すれば十分です。

虹彩を放つ形態

開始画像:

純粋な黒背景に対して、シアン、マゼンタ、ゴールド、エレクトリックブルーのプリズム状の虹色帯を屈折させる、大型の光沢のあるモルフィックフォーム(変形する形状)の抽象的な 3D レンダリング。滑らかな曲面を持つ透明なガラスまたは液体クロームで構成され、ハイリアルなスタジオ照明、物理的に正確な反射と屈折が特徴です。

image
image

次に Video 1.5 に渡す:

光沢のあるモルフィックフォームはゆっくりと波打ち、呼吸しているかのように見えます。その表面は水銀のように流動的に変化し、プリズム状の虹色の帯——シアン、マゼンタ、ゴールド、エレクトリックブルー——が、形状が微妙に変形し再形成されるにつれて曲線に沿って流れ、波打っています。表面張力が変化するにつれ、光の屈折も異なります。フォームはほとんど気づかれないほど回転しています。音響効果:貝殻の内側のような深い共鳴する低音、緊張したガラスの微かな水晶のようなリング音、ゆっくりと瞑想的な雰囲気。

侘び寂びのインテリア

開始画像:

ミニマリストなベルギー風の侘び寂び(wabi-sabi)のインテリア。砂色のオーツミール色をしたリネン張りの低いソファが、触覚的なクリーム色の石灰壁に面して置かれています。その前に、磨き上げられたコンクリートの床の上に、無骨な仕上げのダークウォルナット製のコーヒーテーブルが一つ置かれています。組み込み式のコンクリート台の上には、暗い土褐色の粘土製ベースと柔らかいクリーム色のリネンシェードを持つ、矮小な陶器製のテーブルランプがあり、低い暖かい光を放っています。重厚なリネンのブランケットがソファに非対称にかけられています。装飾も、散らかりもないし、模様もありません。建築写真の撮影はヴィンセント・ファン・ドゥイセンとアクセル・ヴェルヴォルトによるものです。

image
image

その後、Video 1.5 に引き継がれます:

見えない窓から差し込む午後の陽光は、時とともにゆっくりと移り変わり、次第に暗くなっていきます。リネンのソファとコンクリートの床に落ちる温かい黄金色の光の筋は、徐々に右へ移動し細くなり、時間が夕暮れへと近づくにつれて色調が暖かみのある琥珀色から涼しげな青色へと変化します。部屋が暗くなるにつれてランプの温かな輝きはより際立ってきます。隅々まで影が濃くなります。音:深い室内の静寂、外で聞こえるかすかな都市の環境ノイズ、冷える空気の中で建物が沈むような音。

静止画は構成と色を扱い、動画プロンプトは動きを担当します。これらを分けて扱うことで、それぞれをより簡単に反復して改善できるようになります。

Replicate で実行する

原文を表示

We’re particularly excited about Grok Imagine Video 1.5. It’s a big jump with better aesthetic precision and physics adherence. We ran a bunch of prompts through it to see what it could actually do, and we also put together a prompting guide to help you understand how to get the most out of this model.

Video examples

Hong Kong, 2am

The woman’s gaze drops slowly from the camera to the pavement in front of her. Rain continues to fall heavily all around, streaking past the neon signs. The red and green neon reflections ripple in the wet street. The hem of her dress shifts slightly in a warm gust. Sound: heavy rain drumming on pavement and corrugated metal awnings, the low buzz of neon signs, a distant scooter engine fading away, the hiss of tires on a wet road.

Cloud forest, Costa Rica

The panther stands completely still on the mossy log, its amber eyes locked directly on the camera. Its tail sweeps slowly once to the right. The shaft of light from above shifts slightly, the mist swirling around it. The panther’s nostrils flare once, then its ears rotate forward. Sound: deep rainforest quiet, the distant drip of water on broad leaves, a barely-audible rumble from deep in the cat’s chest, a single bird call high in the canopy.

Close-up, firelight

A slow warm breeze moves through the frame, lifting several strands of hair and drifting them across her cheek, then settling. The firelight on her skin breathes and flickers, casting shifting shadows across her brow. Her expression stays completely still. Sound: the soft crackle of burning wood just out of frame, a slow exhale, the distant low moan of wind outside.

Candlelight

The three candle flames flutter in a slow breath of air that passes through the room, bending left then settling upright again. The warm amber light on the linen shifts and pulses with each flicker. A thin trail of smoke rises from the wick of the left candle. Wax begins to pool and run slowly down the side of the center candle. The wine glasses catch each flicker as a tiny moving reflection. Sound: the deep silence of a formal room, the faint tick of a clock somewhere off-frame, the soft crackle of burning wick, a barely audible breath.

Iceland from above

Slow aerial push-in toward the tiny red figure standing at the edge of the turquoise glacial river. The braided water flows in slow swirls across the black sand. The camera drifts gently to the left as it descends. The figure raises a hand to shield their eyes against the sun. A thin veil of mist drifts past the lens. Sound: the muffled chop of distant helicopter rotors heard from inside a cabin, the rush of high-altitude glacial wind, the faint roar of meltwater rivers below, the headset breathing of a pilot.

Person on a motorcycle

The superbike continues leaning hard through the corner at full speed, the knee slider scraping asphalt and throwing a long trail of orange sparks behind it. The stone walls blur past in a torrent of motion. The bike’s exhaust pops twice as the rider shifts mid-corner. The rider’s helmet stays locked on the apex. Sound: the screaming high-pitched wail of a 1000cc superbike engine at 13,000 RPM, the metallic scrape of titanium slider on asphalt, the doppler-shift roar as the bike rockets past the camera, the throaty pop of an aftermarket exhaust on overrun.

Breaking wave

The wave crests fully and pitches forward, the translucent green crest folding and crashing down onto the dark rocks with tremendous force. White foam explodes upward and outward, hanging for a moment before collapsing back. Sea spray drifts across the frame in the dawn wind. The water rushes back off the rocks in white rivulets. A second smaller wave rises behind. Sound: the deep boom of a heavy swell hitting rock, the hiss and rush of water pulling back across stone, the low moan of wind across an open coastline, sea spray on a microphone.

Dawn run, Bangkok

The camera tracks alongside the runners in Bangkok as they continue sprinting, all four pumping their arms and legs in perfect lockstep, breath visible in the cool morning air. The lead runner glances briefly at the camera, then snaps his focus back ahead. The shopfront shutters, parked motorbikes, and pedestrians on the curb streak past in heavy horizontal motion blur. Sound: the rhythmic slap of running shoes on pavement, heavy synchronized breathing, the rumble of a distant scooter, the muffled chatter of an early morning street market.

Quiet afternoon

The figure slowly lowers the phone from their ear, exhales, and lets their hand fall to their side. They turn their head almost imperceptibly toward the room. Dust motes drift through the shaft of golden light. The cat lifts its head, ears swivelling. The CRT television flickers once. The sheer curtains stir in a slow breeze. Sound: distant city traffic muffled through glass, a kitchen tap dripping somewhere off-screen, the soft hum of the old TV, the creak of a wood floor.

Hopefully, these give a good sense of just how far you can push Grok Imagine 1.5.

How to prompt it

After experimenting with Grok Imagine 1.5 quite a bit, we came up with the following prompting tips that can really elevate your outputs.

Write the Sound: section like a sound designer

Every example above has an explicit Sound: section. Signaling this to the model and describe how you want sound to be designed in your video can make or break the final delivery.

Vague: *Sound: city sounds, rain.*

Specific: *Sound: heavy rain drumming on corrugated metal awnings, the low buzz of neon sign transformers, a distant scooter fading away, the hiss of tires on wet road.*

It knows the difference between rain on pavement and rain on metal. You can be as granular as you want, and it will keep up.

A few things that work particularly well: “heard from inside a cabin,” “sea spray on a microphone,” “the headset breathing of a pilot,” “muffled through glass.” These are all spatial and material cues that tell the model what is needed to craft a great soundscape.

Use intensity modifiers

Without them, the model picks its own interpretation of scale. “The wave crests” is ambiguous. “The wave crests fully and pitches forward, crashing down with tremendous force” is much more indicative.

The motorcycle scene works, for instance, because of “screaming high-pitched wail,” “long trail of orange sparks,” and “rockets past the camera.” Remove those words and you get a duller clip.

Describe camera movement

The model holds static if you don’t ask for movement which is generally the right call if you don’t specify anything. A locked camera with patient motion reads more cinematic than unnecessary moves. But when you want a certain camera move, be sure to stipulate that.

Things that work: *slow push-in*, *aerial push-in toward*, *camera drifts gently to the left*, *tracking shot alongside*, *locked, static*. The Iceland clip asks for “slow aerial push-in” and “camera drifts gently to the left as it descends.”

Keep it focused

The model handles focused prompts better than sprawling ones. The eye scene is three sentences: breeze moves hair, light flickers, expression stays still. The candle scene gives each candle its own micro-action. You can really hone in on certain objects while keeping other elements of your composition still or faded out.

Starting with the image

The best way to use Video 1.5 is to start with a still you’ve already dialed in. Use any image generator, like Grok Imagine Image, or your own photo to nail the composition and lighting first. Once the frame looks right, the video prompt only needs to say what changes.

Iridescent form

Starting image:

Abstract 3D render of a large glossy morphic form — smooth curved surfaces of transparent glass or liquid chrome, refracting prismatic iridescent color bands of cyan, magenta, gold, and electric blue against a pure black background. Hyperreal studio lighting, physically accurate reflections and refractions.

Abstract iridescent morphic glass form
Abstract iridescent morphic glass form

Then passed to Video 1.5:

The glossy morphic form slowly undulates and breathes, its surfaces shifting like liquid mercury. The prismatic iridescent bands — cyan, magenta, gold, electric blue — flow and ripple across the curves as the shape subtly deforms and reforms. The light refracts differently as the surface tension shifts. The form rotates almost imperceptibly. Sound: a deep resonant hum, like the inside of a seashell, the faint crystalline ring of glass under tension, slow and meditative.

Wabi-sabi interior

Starting image:

A minimalist Belgian wabi-sabi interior. A long low linen-upholstered sofa in a sandy oatmeal tone sits against a tactile cream lime-plaster wall. A single rough-hewn dark walnut coffee table sits in front of it on a polished concrete floor. On a built-in concrete plinth: a squat ceramic table lamp with a dark earth-brown clay base and a soft cream linen shade, casting a low warm glow. A heavy linen throw drapes asymmetrically across the sofa. No decoration, no clutter, no pattern. The architectural photography of Vincent Van Duysen and Axel Vervoordt.

Minimalist Belgian wabi-sabi interior
Minimalist Belgian wabi-sabi interior

Then passed to Video 1.5:

The afternoon sunlight coming through an unseen window slowly shifts and dims as time passes. The shaft of warm golden light that falls across the linen sofa and concrete floor moves gradually to the right and narrows, the color shifting from warm amber to cooler blue as the hour advances toward evening. The lamp’s warm glow becomes more pronounced as the room darkens. Shadows deepen in the corners. Sound: deep interior quiet, the barely audible ambient hum of the city outside, a building settling in the cooling air.

The still handles composition and color while the video prompt handles motion. Keeping them separate can make both easier to iterate on.

Run it on Replicate

この記事をシェア

関連記事

TLDR AI★42026年6月2日 09:00

動画エージェントモデルが次世代へ — xAI のイーサン・ヘ氏に聞く Grok Imagine の開発秘話(98 分読み)

Nvidia コスモス世界モデルの元リーダー、イーサン・ヘ氏が xAI に移籍し、3 ヶ月で「Grok Image」を構築した経緯について、動画生成やマルチモーダル技術の最前線における実務の核心を語っている。

Ars Technica AI★42026年6月17日 07:22

トランプ政権、xAIのガスタービンに関する大気浄化法訴訟を阻止しようとする

トランプ政権は、NAACPが提起したxAI社のガスタービン運転に関する大気浄化法違反訴訟に対し、軍需に不可欠なGrokシステムを支えるデータセンターへの脅威として反発し、同社を支援して訴訟を阻止しようとしている。

TechCrunch AI★42026年6月11日 07:31

xAI がグロックの安全性に関する警告を上げたエンジニアを解雇、新たな訴訟が主張

xAI は、AI 生成モデル「Grok」の安全性に懸念を示したエンジニアを解雇し、これに対し同エンジニアが会社を相手取り訴訟を起こしたと主張している。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む