Grok画像生成機能リリース
Grokに新しい画像生成モデル「Aurora」が追加され、𝕏プラットフォームで利用可能になりました。
キーポイント
xAIがGrokに新しい画像生成モデル「Aurora」を統合し、𝕏プラットフォームでリリース
AuroraはオートリグレッシブなMixture-of-Expertsモデルで、テキストと画像のマルチモーダル入力に対応
写真写実的なレンダリング、テキスト指示の正確な追従、既存画像の編集機能を備える
他モデルが苦手とする実世界エンティティの詳細描写、テキスト・ロゴ生成、人間のポートレート作成に優れる
選択国で先行リリース後、1週間以内に全ユーザーに展開予定
影響分析・編集コメントを表示
影響分析
xAIが画像生成分野に本格参入し、既存の画像生成モデル(GrokImagen 3、Flux.1 Pro、Ideogram 2.0、Dall-E 3)と競合する高性能モデルを提供。𝕏プラットフォームへの統合により、ソーシャルメディア上でのクリエイティブ表現とコンテンツ生成の可能性が拡大し、マルチモーダルAIの実用化が加速する。
編集コメント
xAIが画像生成市場に参入し、既存モデルと比較可能な性能を主張。プラットフォーム統合によるユーザーアクセスの容易さが競争優位性となる可能性。
グロック画像生成機能のリリースに関する要約
2024年12月9日、xAIはAIアシスタント「Grok」の機能を大幅に更新し、新しい画像生成モデル「Aurora(オーロラ)」を発表した。このモデルは現在、𝕏(旧Twitter)プラットフォーム上で、一部の国々のユーザーに対して利用可能となり、1週間以内に全ユーザーへ展開される予定である。
今回のリリースの中核となる「Aurora」は、自己回帰型の専門家混合(MoE)ネットワークとして設計された。インターネットから収集した数十億の事例で学習されており、テキストと画像データを交互に処理して次のトークンを予測するように訓練されている。この大規模な学習により、モデルは世界に対する深い理解を獲得し、写実的なレンダリングとテキスト指示への正確な従順性に優れることが特徴だ。
さらに、このモデルは単なるテキストからの画像生成を超えたマルチモーダル入力をネイティブにサポートしている。ユーザーが提供した画像をインスピレーションの源として参照したり、直接編集したりすることが可能となる。これにより、従来の画像生成モデルが苦手とする領域において、高品質な画像を生成できるとしている。具体的には、現実世界の実体の精細な視覚的ディテール、テキストやロゴの描写、そして現実的な人物のポートレート作成などを例示している。
提供される機能は多岐にわたり、静止画生成に加えて、動画生成、動画編集、画像編集も単一のAPIで実現する「これまでで最も強力な生成モデル」と位置づけられている。画像編集機能については、入力画像に基づいて編集を行う形で、近日中に𝕏プラットフォーム上でユーザーに提供される予定だ。
xAIはこのリリースを通じて、マルチモーダル理解のフロンティアを押し広げることを目指している。発表には、抽象的な空を飛ぶ軍用機、異星の風景に立つ宇宙飛行士、ゴッホ風の猫、サイバーパンク都市など、多様なテキストプロンプトから生成されたイメージ例が掲載され、その表現力の幅広さを具体的に示している。
原文を表示
Grok Image Generation Release | xAIDecember 09, 2024Grok Image Generation Release
We are updating Grok's capabilities with a new autoregressive image generation model, code-named Aurora, available on the 𝕏 platform.
Our most powerful generative model yet — state-of-the-art video generation, video editing, and image creation, all in one API.
We've enhanced Grok's image generation abilities with a new model, code-named Aurora. Aurora is an autoregressive mixture-of-experts network trained to predict the next token from interleaved text and image data. We trained the model on billions of examples from the internet, giving it a deep understanding of the world. As a result, it excels at photorealistic rendering and precisely following text instructions. Beyond text, the model also has native support for multimodal input, allowing it to take inspiration from or directly edit user-provided images.
Grok's new capabilities are now available on the 𝕏 platform in select countries and will roll out to all users within a week.
Lockheed SR-71 Blackbird flying through an abstract sky.An astronaut standing on the surface of an alien planet, with a spaceship in the background and multiple moons in the sky.A volcano surrounded by ice.A superposition of a cat in a hyperbolic time chamber in the style of Van Gogh.An origami Cybertruck.Cherry blossoms beneath a sunset sky.A sketch of a multi-sided 3d geometric shape on paper.A dog drinking a cup of tea in a library.A closeup of a guitar player's hand holding a pick.A comic of a young man standing by the sea, gazing back over his shoulder with a determined expression. In a speech bubble, printing the text, 'Make it happen, yesterday.'A burger with double meat patty placed on a plate.A female warrior holding a sword, with intricate armor and a confident expression.An abstract composition using geometric shapes and vibrant colors, evoking a sense of energy and movement.Elon Musk as a character in the animated series Rick and Morty.A serene mountain lake at sunset, with mist rising from the water and the peaks reflected perfectly in the still surface.A cyberpunk-inspired city at night, with neon lights, flying cars, and towering skyscrapers.An elderly person, capturing every wrinkle and expression.A dewdrop on a spider web, with the intricate patterns of the web and the refraction of light. Image Generation
Grok can now generate high-quality images across several domains where other image generation models often struggle. It can render precise visual details of real-world entities, text, logos, and can create realistic portraits of humans.
GrokImagen 3Flux.1 ProIdeogram 2.0Dall-E 3 Image Editing
Our new image generation model can now take images as input, giving users greater creative control and flexibility. We will release this capability to users on the 𝕏 platform soon.
Input imageOutput image Looking Forward
At xAI, we are advancing the frontier of multimodal understanding and generation. If this goal inspires you, we invite you to join us on this journey — we are hiring!
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み