Mr. Chatterboxは(弱い)ビクトリア朝時代の倫理的に訓練されたモデルで、自身のコンピュータで実行可能
Trip Venturellaが公開した「Mr. Chatterbox」は、大英図書館の著作権切れヴィクトリア朝文献のみで学習した約3億4000万パラメータの軽量言語モデルだが、実用性は低くマルコフ連鎖に近いと評価されている。
キーポイント
学習データとモデル規模
大英図書館の著作権切れヴィクトリア朝書籍約2.8万冊(約29億トークン)から学習し、パラメータ数は約3.4億(GPT-2-Medium相当)に設定されている。
ローカル実行と公開形態
ファイルサイズは約2.05GBと軽量であり、Hugging Face上でモデルファイルと対話デモが公開され、個人のコンピュータで実行可能。
実用性と技術的限界
著者は「非常に弱い」と評価し、ヴィクトリア朝風の文体は面白いものの実用的な回答生成には向かず、マルコフ連鎖に近い挙動を示すと指摘。
学習効率に関する比較
3億パラメータモデルには約70億トークンの学習が必要とする2022年チンチラ論文の知見に対し、本モデルは学習データ量が半分程度にとどまる。
影響分析・編集コメントを表示
影響分析
このモデルは、大規模スクレイピングやライセンス問題に依存しない「倫理的・合法的な学習データ」の存在可能性を示唆している。ただし実用性は低いため、現在のAI業界においてデータ収集の多様化や小規模モデルの実験場としての意義が主であり、実用LLMの開発には直接寄与しないものの、オープンソースコミュニティのデータ探索文化を後押しする。
編集コメント
データ収集の倫理基準が問われる現代において、著作権切れ文献を活用する試みは意義深い。ただし実用性の低さを認めつつも、小規模モデルの実験場としてオープンソース文化を育む一石となるだろう。
Trip Venturella が、Mr. Chatterbox をリリースしました。これは大英図書館の著作権切れテキストのみを用いて完全に訓練された言語モデルです。彼がこれをどのように説明しているかをご紹介します。
Mr. Chatterbox は、1837 年から 1899 年の間に出版されたヴィクトリア朝期の英国文献 28,000 編以上からなるコーパスを基に、ゼロから完全に訓練された言語モデルです。このデータセットは 大英図書館 が提供したものです。このモデルには 1899 年以降の学習入力は一切含まれておらず、語彙やアイデアは十九世紀の文学のみから形成されています。
Mr. Chatterbox の訓練コーパスは書籍 28,035 冊で、フィルタリング後の推定入力トークンは約 29 億です。このモデルのパラメータ数は約 3 億 4,000 万で、GPT-2-Medium とほぼ同じ規模です。もちろん違いは、GPT-2 が歴史的データのみを基に訓練されている点にあります。
膨大な量のスクレイピングされた無許可データを使わずに有用な大規模言語モデル(LLM: Large Language Model)を訓練することがどれほど難しいかを知っているからこそ、私は数年間もこのようなモデルの登場を夢見ていました。著作権切れテキストのみで訓練されたモデルと対話するとどのようなものになるのでしょうか。
Trip のおかげで、私たちは今や自らその答えを見つけることができます!
モデル自体は、少なくとも大規模言語モデルの基準からすれば非常に小さく、ディスク上ではわずか 2.05GB です。Trip の HuggingFace Spaces デモ を使って試すことができます。

正直に言って、これはかなりひどいものです。これと話すのは大規模言語モデル(LLM)というより、むしろマルコフ連鎖(Markov chain)との会話のように感じられます。応答には心地よいビクトリア朝風の風味がありますが、質問に対して有用な回答を得るのは困難です。
2022 年の Chinchilla ペーパー では、パラメータ数の 20 倍のトレーニングトークンが必要であると示唆されています。340m モデルの場合、これは約 70 億トークンを意味し、ここで使用されている大英図書館のコーパスの倍以上になります。最小の Qwen 3.5 モデルは 600m パラメータであり、そのモデルファミリーが面白くなるのは 2b からですので、私の直感では、有用な会話相手として感じられるものにするには、トレーニングデータを 4 倍またはそれ以上必要とするでしょう。
しかし、これは楽しいプロジェクトです!
LLM を使用してローカルで実行する
私は、自分の LLM フレームワークを使用して、このモデルを自分のマシン上で実行できるかどうかを試してみることにしました。
Claude Code にほとんどの作業を行わせました。そのトランスクリプトはこちらです。
Trip は Andrej Karpathy の nanochat を用いてモデルをトレーニングしたため、私はそのプロジェクトをクローンし、モデルの重み(weights)を取得して Claude に Python スクリプトを作成させてモデルを実行できるようにしました。これが動作するようになった後(Space デモソースコード から追加の詳細が必要となりましたが)、Claude に LLM プラグインチュートリアル を読ませて残りのプラグインを作成させました。
llm-mrchatterbox がその結果です。このプラグインは以下のようにインストールできます:
llm install llm-mrchatterbox
プロンプトを実行する初回に、Hugging Face から 2.05GB のモデルファイルが取得されます。以下のように試してみてください:
llm -m mrchatterbox "Good day, sir"
あるいは、以下のように継続的なチャットセッションを開始することもできます:
llm chat -m mrchatterbox
LLM がインストールされていない場合でも、uvx を使用してゼロからチャットセッションを始めることができます:
uvx --with llm-mrchatterbox llm chat -m mrchatterbox
モデルの使用が終了したら、以下でキャッシュファイルを削除できます:
llm mrchatterbox delete-model
Claude Code にゼロから完全な LLM モデルプラグインを作成させたのは今回が初めてでしたが、非常にうまく機能しました。今後ともこの方法を頻繁に利用するつもりです。
私は、完全にパブリックドメインのデータから有用なモデルを構築できることを引き続き願っています。Trip 氏が nanochat と 29.3 億トークンのトレーニングデータを用いてこれほどまで到達できた事実は、有望な始まりです。
Tags: ai, andrej-karpathy, generative-ai, local-llms, llms, ai-assisted-programming, hugging-face, llm, training-data, uv, ai-ethics, claude-code
原文を表示
Trip Venturella released Mr. Chatterbox, a language model trained entirely on out-of-copyright text from the British Library. Here's how he describes it:
Mr. Chatterbox is a language model trained entirely from scratch on a corpus of over 28,000 Victorian-era British texts published between 1837 and 1899, drawn from a dataset made available by the British Library. The model has absolutely no training inputs from after 1899 — the vocabulary and ideas are formed exclusively from nineteenth-century literature.
Mr. Chatterbox's training corpus was 28,035 books, with an estimated 2.93 billion input tokens after filtering. The model has roughly 340 million paramaters, roughly the same size as GPT-2-Medium. The difference is, of course, that unlike GPT-2, Mr. Chatterbox is trained entirely on historical data.
Given how hard it is to train a useful LLM without using vast amounts of scraped, unlicensed data I've been dreaming of a model like this for a couple of years now. What would a model trained on out-of-copyright text be like to chat with?
Thanks to Trip we can now find out for ourselves!
The model itself is tiny, at least by Large Language Model standards - just 2.05GB on disk. You can try it out using Trip's HuggingFace Spaces demo:

Honestly, it's pretty terrible. Talking with it feels more like chatting with a Markov chain than an LLM - the responses may have a delightfully Victorian flavor to them but it's hard to get a response that usefully answers a question.
The 2022 Chinchilla paper suggests a ratio of 20x the parameter count to training tokens. For a 340m model that would suggest around 7 billion tokens, more than twice the British Library corpus used here. The smallest Qwen 3.5 model is 600m parameters and that model family starts to get interesting at 2b - so my hunch is we would need 4x or more the training data to get something that starts to feel like a useful conversational partner.
But what a fun project!
Running it locally with LLM
I decided to see if I could run the model on my own machine using my LLM framework.
I got Claude Code to do most of the work - here's the transcript.
Trip trained the model using Andrej Karpathy's nanochat, so I cloned that project, pulled the model weights and told Claude to build a Python script to run the model. Once we had that working (which ended up needing some extra details from the Space demo source code) I had Claude read the LLM plugin tutorial and build the rest of the plugin.
llm-mrchatterbox is the result. Install the plugin like this:
llm install llm-mrchatterbox
The first time you run a prompt it will fetch the 2.05GB model file from Hugging Face. Try that like this:
llm -m mrchatterbox "Good day, sir"
Or start an ongoing chat session like this:
llm chat -m mrchatterbox
If you don't have LLM installed you can still get a chat session started from scratch using uvx like this:
uvx --with llm-mrchatterbox llm chat -m mrchatterbox
When you are finished with the model you can delete the cached file using:
llm mrchatterbox delete-model
This is the first time I've had Claude Code build a full LLM model plugin from scratch and it worked really well. I expect I'll be using this method again in the future.
I continue to hope we can get a useful model from entirely public domain data. The fact that Trip was able to get this far using nanochat and 2.93 billion training tokens is a promising start.
Tags: ai, andrej-karpathy, generative-ai, local-llms, llms, ai-assisted-programming, hugging-face, llm, training-data, uv, ai-ethics, claude-code
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み