OpenAIのGemini 3への回答、Runwayのインタラクティブワールド、DisneyとOpenAIの提携、低データ領域へのLLM適応
LLMの知識向上は断片的なプロセスで進んでおり、OpenAIとDisneyの提携や低データ領域への適応など、AI分野の最新動向を紹介。
キーポイント
LLMは汎用性があるが人間の能力には及ばず、AGIへの道筋は過大評価されている
特定ドメインでのLLM性能向上には大量の高品質データ作成やRL環境構築が必要
人間は少ないデータでも優れた汎化能力を持つが、そのメカニズムは未解明
現在のLLM進歩はデータ中心アプローチによる漸進的改善が主流
影響分析・編集コメントを表示
影響分析
この記事はLLM開発の現実的な課題と限界を指摘し、過度な期待を戒めつつ、データ中心アプローチによる漸進的改善の重要性を強調している。業界の方向性を冷静に評価する視点を提供し、実用的なAI開発への指針となる。
編集コメント
AIの現状を過大評価せず、データ品質と漸進的改善の重要性を説くバランスの取れた分析。開発者向けの実践的な視点が参考になる。
本記事は、現在の大規模言語モデル(LLM)の能力とその向上への道のりについて、過大評価にも過小評価にも陥らない現実的な視点を提供する。主要なポイントは以下の通りである。
第一に、LLMは確かに従来の単一タスク特化型アルゴリズムよりも汎用的な知能であり、単一モデルで多様なタスクに適用できる。これは主に、広範な主題を含む公開ウェブ上のデータで事前学習されたことによる成果である。
しかし、その汎用性は人間の能力には遠く及ばない。例えば、特定の編集者が使いこなす文章スタイルへの適応や、単純なウェブサイトの確実な操作などにおいて、LLMは依然として苦戦する。公開ウェブの情報をほぼ使い尽くした今、進歩はより困難になっている。
現在、最先端の研究ラボがLLMに特定のタスク(例:特定のプログラミング言語でのコーディング、医療や金融の特定分野について適切に発言すること)で高い性能を出させようとする場合、研究者は非常に労力を要するプロセスを踏まなければならない。対象領域の大量のデータを探し出し、または生成し、さらにそのデータを(低品質テキストの除去、重複排除、言い換えなどにより)整備して、LLMに知識を与えるための訓練データセットを作成するのである。
あるいは、ウェブブラウザの使用のような特定のタスクをモデルに習得させるには、開発者はさらに煩雑なプロセスとして、多くの模擬環境(RL gym)を作成し、アルゴリズムに狭いタスク群を反復練習させる必要がある。
一方、典型的な人間は、最先端モデルよりもはるかに少ないテキストしか読んでおらず、コンピューター使用の訓練環境での練習量もはるかに少ないにもかかわらず、最先端モデルよりもはるかに広範なタスクへ一般化できる。人間は、フィードバックからの継続的学習、非テキスト入力に対する優れた表象(LLMの画像トークン化はまだ「ハック」的と筆者は感じる)、その他我々がまだ理解していない多くのメカニズムを利用している可能性がある。
したがって、現在の最先端モデルを前進させるには、多くの手動の判断を下し、モデル訓練に用いるデータを丹念に設計する「データ中心のAI」アプローチが不可欠である。将来的なブレークスローにより、ここで述べたような断片的な方法ではなく、もっと統合的な形でLLMを進歩させられる可能性はある。しかし、たとえそれが実現しなくても、継続的な断片的な改善と、人間の知能の仕組みに関する科学的理解の深化が相まって、AIシステムは着実に能力を高め、社会に大きな価値をもたらし続けると筆者は期待している。
原文を表示
Loading the Elevenlabs Text to Speech AudioNative Player... Dear friends,
As amazing as LLMs are, improving their knowledge today involves a more piecemeal process than is widely appreciated. I’ve written about how AI is amazing . . . but not that amazing. Well, it is also true that LLMs are general . . . but not that general. We shouldn’t buy into the inaccurate hype that LLMs are a path to AGI in just a few years, but we also shouldn’t buy into the opposite, also inaccurate hype that they are only demoware. Instead, I find it helpful to have a more precise understanding of the current path to building more intelligent models.
First, LLMs are indeed a more general form of intelligence than earlier generations of technology. This is why a single LLM can be applied to a wide range of tasks. The first wave of LLM technology accomplished this by training on the public web, which contains a lot of information about a wide range of topics. This made their knowledge far more general than earlier algorithms that were trained to carry out a single task such as predicting housing prices or playing a single game like chess or Go. However, they’re far less general than human abilities. For instance, after pretraining on the entire content of the public web, an LLM still struggles to adapt to write in certain styles that many editors would be able to, or use simple websites reliably.
After leveraging pretty much all the open information on the web, progress got harder. Today, if a frontier lab wants an LLM to do well on a specific task — such as code using a specific programming language, or say sensible things about a specific niche in, say, healthcare or finance — researchers might go through a laborious process of finding or generating lots of data for that domain and then preparing that data (cleaning low-quality text, deduplicating, paraphrasing, etc.) to create data to give an LLM that knowledge.
Or, to get a model to perform certain tasks, such as use a web browser, developers might go through an even more laborious process of creating many RL gyms (simulated environments) to let an algorithm repeatedly practice a narrow set of tasks.
A typical human, despite having seen vastly less text or practiced far less in computer-use training environments than today's frontier models, nonetheless can generalize to a far wider range of tasks than a frontier model. Humans might do this by taking advantage of continuous learning from feedback, or by having superior representations of non-text input (the way LLMs tokenize images still seems like a hack to me), and many other mechanisms that we do not yet understand.
Advancing frontier models today requires making a lot of manual decisions and taking a data-centric AI approach to engineering the data we use to train our models. Future breakthroughs might allow us to advance LLMs in a less piecemeal fashion than I describe here. But even if they don’t, I expect that ongoing piecemeal improvements, coupled with the limited degree to which these models do generalize and exhibit “emergent behaviors,” will continue to drive rapid progress.
Either way, we should plan for many more years of hard work. A long, hard — and fun! — slog remains ahead to build more intelligent models.
Many agent failures trace back to invisible issues: unclear tool calls, silent reasoning errors, and changes that regress behavior. Our new course shows how to use Nvidia’s NeMo Agent Toolkit to add tracing, run repeatable evals, and deploy workflows with authentication and rate limiting, so your agents behave reliably in real environments. Enroll today
Runway’s GWM-1 family of video-generation models respond to user input in real time while producing scenes that remain consistent regardless of the camera’s position.
What’s new: Runway introduced GWM-1, a trio of “general world models” that were trained to understand how scenes behave, not just how scenes appear. GWM Worlds generates scenes, GWM Robotics produces synthetic data for training and testing robots, and GWM Avatars generates conversational characters with facial expressions and lip-synced speech. (In addition, the company added audio generation, audio editing, and multi-shot video editing capabilities to Gen-4.5, its flagship video generator.)
Architecture: Autoregressive diffusion model based on Gen-4.5
Input/output: Text and images in, video out (up to 2 minutes, 1280x720-pixel resolution, 24 frames per second)
Availability: The models will be available in “coming weeks.” GWM Worlds and GWM Avatars will be available via web interface, GWM Robotics software development kit by request.
Undisclosed: Parameter count, training data and methods, pricing, release dates, performance metrics
How it works: Unlike typical diffusion models that generate an entire video simultaneously by removing noise progressively over a number of steps, GWM-1 generates one frame at a time based on past frames and control inputs. This autoregressive approach
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み