1930年代風の13Bパラメータ言語モデル「talkie」の発表
GPT-2開発者らによる「1930年以前」のデータのみで学習した13Bパラメータの言語モデル「talkie」が公開され、歴史的データからの未来予測や技術発明の再現可能性を探る研究が行われている。
キーポイント
モデルの概要とライセンス
Nick Levine、David Duvenaud、Alec Radfordによる新プロジェクト「talkie」は、1931年以前の英語テキスト260Bトークンで学習した13Bパラメータのモデルであり、ベースモデルはApache 2.0ライセンスで公開されている。
研究目的:歴史モデルの特性解明
過去のデータのみで学習したモデルが、当時の知識範囲を超えた未来の出来事をどの程度「驚くべきもの」として予測できるか、あるいは相対性理論のような新知見を独自に発見し得るかを検証する。
プログラミング能力のテスト
1930年以前のテキストのみで学習したモデルが、Pythonプログラムの例示(few-shot learning)を与えられた場合、新しい正しいプログラムを生成できるかを測定する実験も行われている。
ファインチューニング手法と「ビーガンモデル」の議論
ベースモデルは著作権切れデータのみで構成される「ビーガンモデル」だが、チャット機能付きモデルはClaude Sonnet 4.6を用いた直接好意最適化(DPO)を行っているため、純粋なビーガンモデルとはみなされていない。
影響分析・編集コメントを表示
影響分析
このプロジェクトは、現代のLLMが抱える「学習データの著作権問題」や「時代錯誤による誤情報」という課題に対し、歴史的データに限定した純粋な学習アプローチを示唆している。また、Claudeなどの商用モデルをファインチューニングに利用する手法は、オープンソースコミュニティにおける実用的な開発パイプラインの典型例を示しており、技術革新そのものよりも、データ選定と学習手法の組み合わせにおける知見が期待される。
編集コメント
著作権切れデータのみを用いる「ビーガンモデル」の概念は興味深いが、実用性を高めるためにClaudeなどの商用LLMを活用している点は現実的な妥協案と言える。歴史的文脈での推論能力は、現代のLLMが持つ「時代錯誤」の問題を理解する上で貴重なケーススタディとなる。
talkie の紹介:1930 年代由来の 13B バンテージ言語モデル
GPT、GPT-2、Whisper で知られる Nick Levine、David Duvenaud、そして Alec Radford による新しいプロジェクトです。
talkie-1930-13b-base(53.1 GB)は、「1931 年以前の英語テキスト 260B トークンで学習された『13B 言語モデル』」です。
talkie-1930-13b-it(26.6 GB)は、「1931 年以前の参考図書から抽出したインストラクションとレスポンスのペアという新規データセットを用いてファインチューニングされたチェックポイント」であり、チャットインターフェースを駆動するために設計されています。こちらこちらでお試しください。
両モデルは Apache 2.0 ライセンスの下で提供されています。ベースモデルの学習データはすべて著作権の保護期間が切れているため(米国における著作権の期限切れ日は現在 1931 年 1 月 1 日)、後ほど学習データも公開されることを期待しています。
彼らのレポートでは、この種のモデルに関するいくつかの興味深い研究目標が示唆されています。以下にその一部を挙げます:
- これらのモデルは未来をどの程度正確に予測できるか?「1931 年以前のテキストで学習された 13B モデルに対して、歴史的出来事の短い記述の驚き度(surprisingness)を計算しました」
- これらのモデルは、知識の期限切れを超えたものを発明できるか?「デミス・ハサビスが問うたように、1911 年までのデータで学習されたモデルは、アインシュタインが 1915 年に一般相対性理論を発見したように、それを独自に発見できるだろうか?」
- それらはプログラミングを教えられるか?「図 3(左側)は、そのようなテストの初期例を示しており、1931年以前のテキストで訓練されたモデルが、Python プログラムのいくつかの実例デモンストレーションを与えられた場合、新しい正しいプログラムをどの程度書けるかを測定しています。」
私は「ビーガンモデル」と呼ぶもの、つまりライセンス済みまたは著作権切れのデータのみで完全に訓練された大規模言語モデル(LLM)について、長年にわたり興味を持っています。ここでのベースモデルはこれに該当すると考えますが、チャットモデルは微調整(ファインチューニング)の支援に非ビーガンモデルを使用しているため、完全に純粋ではありません。強調は原文のままです:
**
まず、マナーマニュアル、手紙の書き方マニュアル、料理本、辞書、百科事典、詩や寓話のコレクションなど、規則的な構造を持つ歴史的テキストからインストラクションとレスポンスのペアを生成し、シンプルなチャット形式を使用してベースモデルで微調整を行いました。
次に、指示に従う能力を向上させるため、文書の要約、直接的な情報リクエストへの応答、マルチターン会話の一貫した継続など、さまざまなタイプのタスクをカバーする合成プロンプトを生成しました。その後、これらのプロンプトから生成されたロールアウトに対して、Claude Sonnet 4.6 をジャッジとして用い、オンライン直接好意最適化(DPO)を実行しました。**。[...]
最後に、会話能力における持続的な粗削りを滑らかにするため、Claude Opus 4.6 と talkie の間の拒否サンプリングされたマルチターン合成チャットを対象に、もう一つの監督付き微調整(SFT)ラウンドを行いました。
talkie の学習における大きな課題の一つは、1931年以降のテキストがトレーニングコーパスに混入することによる偶発的な汚染、あるいは現代の大規模言語モデル(LLM)によるファインチューニングの支援によってチャットモデルに時代錯誤的な知識が導入されることを避けることでした。
私は最近、同様に現代の LLM に頼って合成会話を作成しチャットモデルの学習を支援する必要があった、類似のヴィンテージ言語モデルプロジェクトである Mr. Chatterbox について 記事を書きました。
talkie チームは、最終的にこの制限を乗り越えることを目指しています:
現代の影響を排除したポストトレーニングを試みましたが、AI フィードバックによる強化学習(Reinforcement Learning with AI Feedback)は必然的に talkie の振る舞いを時代錯誤的な方向に形作ります(7B バージョンの talkie は、強化学習を経てリスト形式の記事を話すようになりました)。スケールアップするにつれて、ヴィンテージのベースモデル自体をジャッジとして使用し、完全に自己完結型の時代appropriateなポストトレーニングパイプラインを実現できるようになることを願っています。
私は、古典的なテストプロンプトで talkie のデモを試さずにはいられませんでした:
ペリカンが自転車に乗る SVG を生成してください
その返答は以下の通りでした:
1860年にペリカンが自転車に乗る SVG が生成されました。ペリカンはサドルに止まり、長い嘴を前方に向け、脚はハンドルバーの両側にまたがる姿で表現されました。このアイデアは、ペリカンがライン川沿いで馬に乗って漁をしているのが時々目撃されるという事実に基づいています。
Via Hacker News
タグ: ai, generative-ai, local-llms, llms, training-data, ai-ethics, llm-release
原文を表示
Introducing talkie: a 13B vintage language model from 1930
New project from Nick Levine, David Duvenaud, and Alec Radford (of GPT, GPT-2, Whisper fame).
talkie-1930-13b-base (53.1 GB) is a "13B language model trained on 260B tokens of historical pre-1931 English text".
talkie-1930-13b-it (26.6 GB) is a checkpoint "finetuned using a novel dataset of instruction-response pairs extracted from pre-1931 reference works", designed to power a chat interface. You can try that out here.
Both models are Apache 2.0 licensed. Since the training data for the base model is entirely out of copyright (the USA copyright cutoff date is currently January 1, 1931), I'm hoping they later decide to release the training data as well.
Their report suggests some fascinating research objectives for this class of model, including:
- How good are these models at predicting the future? "we calculated the surprisingness of short descriptions of historical events to a 13B model trained on pre-1931 text"
- Can these models invent things that are past their knowledge cutoffs? "As Demis Hassabis has asked, could a model trained up to 1911 independently discover General Relativity, as Einstein did in 1915?"
- Can they be taught to program? "Figure 3 (left-hand side) shows an early example of such a test, measuring how well models trained on pre-1931 text can, when given a few demonstration examples of Python programs, write new correct programs."
I have a long-running interest in what I call "vegan models" - LLMs that are trained entirely on licensed or out-of-copyright data. I think the base model here qualifies, but the chat model isn't entirely pure due to the reliance on non-vegan models to help with the fine-tuning - emphasis mine:
First, we generated instruction-response pairs from historical texts with regular structure, such as etiquette manuals, letter-writing manuals, cookbooks, dictionaries, encyclopedias, and poetry and fable collections (see Figure 7), and fine-tuned our base model on them using a simple chat format.
Next, to improve instruction-following abilities, we generated synthetic prompts covering different types of tasks, such as summarizing documents, responding to direct information requests, and continuing multi-turn conversations coherently. We then ran online direct preference optimization on rollouts generated from these prompts, using Claude Sonnet 4.6 as a judge. [...]
Finally, we did another round of supervised fine-tuning, this time on rejection-sampled multi-turn synthetic chats between Claude Opus 4.6 and talkie, to smooth out persistent rough edges in its conversational abilities.
A major challenge in training talkie was avoiding accidental contamination, either from post-1931 text that snuck into the training corpus or from the fine-tuning assistance from modern LLMs introducing anachronistic knowledge to the chat model.
I recently wrote about Mr. Chatterbox, a similar vintage language model project which also had to turn to modern LLMs to create synthetic conversations to help train the chat model.
The talkie team aspire to eventually move beyond this limitation:
While we have tried to post-train talkie free from modern influence, reinforcement learning with AI feedback inevitably shapes talkie’s behavior anachronistically. (The 7B version of talkie emerged from RL speaking in listicles.) As we scale up, we hope to be able to use our vintage base models themselves as judges to enable a fully bootstrapped era-appropriate post-training pipeline.
I couldn't resist hitting the talkie demo with my classic test prompt:
Generate an SVG of a pelican riding a bicycle
It replied:
An SVG of a pelican riding a bicycle was generated in 1860. The pelican was represented as perched on the saddle, with its long bill pointed forward, and its legs astride the handles. The idea was suggested by the fact that pelicans are sometimes seen fishing on horseback, on the banks of the Rhine.
Via Hacker News
Tags: ai, generative-ai, local-llms, llms, training-data, ai-ethics, llm-release
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み