Cachy: How we made our notebooks 60x faster.｜Cachy：ノートパソコンの処理速度を60倍に高速化した方法 | AIニュース最前線

![image](https://www.answer.ai/posts/2025-10-01-cachy/1.png) イントロダクション。 AnswerAI では、A.I. を扱う作業を少しだけ楽にするソフトウェアを開発しています。例えば、過去 1 年間で、Anthropic や OpenAI といった LLM（大規模言語モデル）プロバイダーとの連携をよりシンプルにする一連のオープンソース Python パッケージ（Claudette, Cosette）を開発しました。 これらのパッケージは多数の LLM 呼び出しを実行しますが、これにより開発が大幅に遅くなるようないくつかの課題が生じます。 テストスイートの実行が遅い。各 LLM 呼び出しの実行に数百ミリ秒かかるためです。 LLM の応答は非決定的であり、アサーション（検証）が困難になります。 CI/CD パイプライン（Github Actions など）では、テストを実行するために API キーへのアクセス権限が必要です。 私たちがソフトウェアの多くをノートブックで開発しているため、非決定的な応答は追加の問題を引き起こします。これによりノートブックの差分に著しい肥大化が生じ、コードレビューがより困難になります 😢。 なぜ Cachy なのか？ LLM は比較的新しい技術ですが、これらの課題自体は新しいものではなく、すでに確立された解決策が存在します。各 LLM 呼び出しをモック（模擬）し、実際の LLM プロバイダーに呼び出すのではなく特定の応答を返すようにするだけです。確かにこのアプローチは非常にうまく機能しますが、少し手間がかかります。私たちの場合、手動で LLM を呼び出して応答を取得し、プロジェクトに保存した上で、それを利用するモックを作成する必要があります。プロジェクト全体で数百回行われる LLM 呼び出しに対して、このプロセスを繰り返さなければなりません 😢。 私たちは、もっと良い方法はないか、手動での介入をゼロにして自動的に背景で動作する何かを作れないかと自問しました。その「より良いもの」は非常にシンプルであることがわかりました。最も人気のある LLM SDK のソースコードを確認したところ、すべてがそれぞれの API を呼び出すために httpx ライブラリを使用していることが判明しました。私たちが行う必要があったのは、httpx の send メソッドを修正して、すべての呼び出しのレスポンスをローカルファイル（つまりキャッシュ）に保存し、将来のリクエストで再利用することだけでした。これを実現する疑似コードは以下の通りです。 @patch def send(self:httpx._client.Client, r, **kwargs): id_ = req2id(r) # リクエストを一意の識別子に変換 if id_ in cache: return httpx.Response(content=cache[id_]) res = self._orig_send(r, **kwargs) update_cache(id_, res) return res このシンプルなパッチを私たちのプロジェクトの一つに適用したところ、その効果は即座に現れました。 テストの実行時間が約 2 分ではなく、約 2 秒でできるようになりました 🔥 ついに CI/CD パイプラインにテストスイートを追加できました ノートブックの差分がクリーンかつ焦点を絞ったものになりました 最も素晴らしい点は、モックやフィクスチャでプロジェクトを肥大化させることなく、コードを一行も書かずにこれらの恩恵すべてを得られたことです。 それ以来、非同期処理とストリーミングに対応し、今日オープンソースとして公開する別パッケージ「cachy」へと発展させました 🎉 使用法 cachy のセットアップは非常に簡単です。 pip でインストールします pip install pycachy ノートブックまたはスクリプトで cachy をインポートします from cachy import enable_cachy ノートブックまたはスクリプトの先頭に enable_cachy() を追加することで、cachy を有効化できます。 これで Anthropic または OpenAI の Python SDK を使用すると、同じ LLM 呼び出しを再度行った際にレスポンスがキャッシュされ再利用されます。追加のコードを書く必要はありません。cachy は自動的にバックグラウンドで動作します。 以下に例を示します。 from cachy import enable_cachy enable_cachy() 次に、OpenAI から completion をリクエストしてみましょう。 from openai import OpenAI cli = OpenAI() r = cli.responses.create(model="gpt-4.1", input="Hey!") r Hey! How can I help you today? 😊 id: resp_05b1a0c3eca9e1450068dbb5ff4a74819e8bc3099532846ea1 created_at: 1759229439.0 error: None incomplete_details: None instructions: None metadata: {} model: gpt-4.1-2025-04-14 object: response output: [ResponseOutputMessage(id='msg_05b1a0c3eca9e1450068dbb600147c819e8684cbe7fe3adc40', content=[ResponseOutputText(annotations=[], text='Hey! How can I help you today? 😊', type='output_text', logprobs=[])], role='assistant', status='completed', type='message')] parallel_tool_calls: True temperature: 1.0 tool_choice: auto tools: [] top_p: 1.0 background: False conversation: None max_output_tokens: None max_tool_calls: None previous_response_id: None prompt: None prompt_cache_key: None reasoning: Reasoning(effort=None, generate_summary=None, summary=None) safety_identifier: None service_tier: default status: completed text: ResponseTextConfig(format=ResponseFormatText(type='text'), verbosity='medium') top_logprobs: 0 truncation: disabled usage: ResponseUsage(input_tokens=9, input_tokens_details=InputTokensDetails(cached_tokens=0), output_tokens=11, output_tokens_details=OutputTokensDetails(reasoning_tokens=0), total_tokens=20) user: None billing: {'payer': 'developer'} store: True 同じリクエストを再度実行すると、応答はキャッシュから読み込まれます。 r = cli.responses.create(model="gpt-4.1", input="Hey!") r Hey! How can I help you today? 😊 id: resp_05b1a0c3eca9e1450068dbb5ff4a74819e8bc3099532846ea1 created_at: 1759229439.0 error: None incomplete_details: None instructions: None metadata: {} model: gpt-4.1-2025-04-14 object: response output: [ResponseOutputMessage(id='msg_05b1a0c3eca9e1450068dbb600147c819e8684cbe7fe3adc40', content=[ResponseOutputText(annotations=[], text='Hey! How can I help you today? 😊', type='output_text', logprobs=[])], role='assistant', status='completed', type='message')] parallel_tool_calls: True temperature: 1.0 tool_choice: auto tools: [] top_p: 1.0 background: False conversation: None max_output_tokens: None max_tool_calls: None previous_response_id: None prompt: None prompt_cache_key: None reasoning: Reasoning(effort=None, generate_summary=None, summary=None) safety_identifier: None service_tier: default status: completed text: ResponseTextConfig(format=ResponseFormatText(type='text'), verbosity='medium') top_logprobs: 0 truncation: disabled 使用例：ResponseUsage(input_tokens=9, input_tokens_details=InputTokensDetails(cached_tokens=0), output_tokens=11, output_tokens_details=OutputTokensDetails(reasoning_tokens=0), total_tokens=20) ユーザー：なし 請求情報：{'payer': 'developer'} 保存：True 汎用キャッシング 本記事は LLM（大規模言語モデル）の応答をキャッシュすることに焦点を当てていますが、cachy を使用すれば httpx で行われるあらゆる呼び出しをキャッシュすることができます。必要なことは、cachy にキャッシュしたい URL を指定するだけです。 enable_cachy(doms=["api.example.com", "api.demo.com"]) 結論 cachy は、フロー状態をより長く維持し、わずかながらもスピードアップを可能にする、そんな生活の質を向上させる小さな改善の一つです。皆様にとって有益なツールとして活用していただければ幸いです。

Cachy：ノートパソコンの処理速度を60倍に高速化した方法

背景や根拠まで確認しますか？

関連記事