2026年3月23日 科学:科学計算のための長時間実行Claude
Anthropic Researchは、Claude Codeを使用したマルチデイエージェントワークフローにより、非専門家でも科学的計算タスク(例:宇宙論のボルツマンソルバーの微分可能実装)を数時間で完了できる方法を実証した。
キーポイント
自律的エージェントワークフローの科学計算への適用
従来の対話型管理から脱却し、高レベル目標を設定した自律的エージェントチームによる作業が可能になり、数日・数週間かかるプロジェクトを数時間で完了できる。
具体的な応用例:微分可能ボルツマンソルバーの実装
Claude Opus 4.6を使用し、非専門家が宇宙マイクロ波背景放射(CMB)予測のためのJAXベース微分可能ソルバーを実装した事例を示している。
実証済みのパターン:Cコンパイラプロジェクトの延長
約2,000セッションでLinuxカーネルをコンパイル可能なCコンパイラを構築したAnthropicのプロジェクトを基に、同様のパターンを科学計算に適用する方法を説明している。
適したタスクの特性と実用性
作業範囲が明確で成功基準が明白、人間の監視が断続的で済むタスク(数値ソルバーの再実装、レガシーコードの変換、大規模コードベースのデバッグなど)に特に有効。
科学計算におけるエージェントの適切な役割分担
ボルツマンソルバーのような密結合パイプラインでは、小さな数値誤差が下流に影響するため、単一エージェントが逐次的に作業し、必要に応じてサブエージェントを生成するアプローチが適している。
自律的研究チームの管理手法
CLAUDE.mdファイルにプロジェクトの成果物とコンテキストを明確に記述し、エージェントがこれを参照・編集しながら作業を進めることで、計画の一貫性を保つ。
進捗管理と知識継承の仕組み
CHANGELOG.mdファイルを進捗ファイルとして使用し、現在の状況、完了したタスク、失敗したアプローチとその理由などを記録することで、セッション間での作業の重複を防ぐ。
影響分析・編集コメントを表示
影響分析
この記事は、AIエージェントが専門知識の壁を越えて科学的発見を加速させる可能性を示しており、研究開発の民主化と効率化に大きな影響を与える。特に、明確に定義された科学計算タスクにおいて、人間の専門家の時間的制約を大幅に緩和し、学際的研究や複雑な計算課題への取り組みを促進する可能性が高い。
編集コメント
専門家でなくても複雑な科学計算タスクをAIエージェントに委ねられる時代が来たことを示す実践的な事例。研究開発の効率化と民主化の両面で重要なマイルストーンと言える。
この投稿では、Siddharth Mishra-Sharmaが、自身の専門分野外であっても、数日間にわたるエージェント型コーディングワークフロー(テストオラクル、永続メモリ、オーケストレーションパターン)を科学計算タスクに適用する方法を説明します。
現在、AIエージェントを利用している科学者の大半は、会話型のループ内で作業し、プロセスの各ステップを細かく管理しています。ここ1年ほどでモデルの長期的タスク遂行能力が大幅に向上したことで、新たな作業方法が登場しました。あらゆる詳細に関与するのではなく、高レベルの目標を指定し、エージェントのチームを自律的に作業させるという方法です。これにより、本来なら数日、数週間、あるいは数ヶ月かかるプロジェクトをわずか数時間で完了させることが可能になります。特定の種類の科学タスクはこのモデルにうまく適合します。例えば、数値ソルバーの再実装、古いFortran方言で書かれたレガシー科学ソフトウェアの現代言語への変換、参照実装を用いた大規模コードベースのデバッグなどです。これらは、作業範囲が明確に定義され、成功基準が明らかで、人間による監視が継続的ではなく随時で済むタスクです。
AnthropicのCコンパイラプロジェクトはこの一例を示しており、Claudeが約2,000セッションにわたってLinuxカーネルをコンパイル可能なCコンパイラを構築しました。この投稿では、典型的な学術研究室を想定し、Claude Codeを使用して科学計算タスクに同様のパターンを設定する方法を説明します。具体的な例として、Claude Opus 4.6を使用して宇宙論的ボルツマンソルバーの微分可能バージョンを実装する手順を説明します。これは、ビッグバンの残光である宇宙マイクロ波背景放射(CMB)の統計的性質を予測する数値コードです。光子、バリオン、ニュートリノ、暗黒物質の結合方程式を初期宇宙を通じて進化させることでこれを実現します。
CLASSやCAMBのようなボルツマンソルバーは、宇宙論における科学インフラの中核をなすものであり、PlanckやSimons Observatoryなどの観測データを用いて宇宙論モデルに制約を加えることを可能にします。微分可能バージョン(勾配をソルバー全体に伝播できるもの)は、勾配ベースの推論手法の使用を可能にし、パラメータ推定を劇的に高速化します。これをJAXで記述することは自然な選択です。なぜなら、自動微分とアクセラレータ(例えばGPU)との互換性を、基本的に追加コストなしで得られるからです。特筆すべきは、このタスクが私の専門的核心分野ではないことです。私はツールと科学について大まかな理解はありますが、妥当な時間内に自力で完了させる専門知識は持っていません。その専門知識を持つグループは、CLASSに存在する機能の一部を備えた微分可能ソルバーをJAXで既に構築しています。これらの取り組みには通常、研究者の時間として数ヶ月から数年が費やされています。ここでの目的は、非専門家からの最小限の指示で、エージェントがどこまで進められるかを確認することでした。
この種のタスクは構造的にCコンパイラプロジェクトとは異なります。Cコンパイラプロジェクトは多数の並列エージェントに分担させることができます。一方、ボルツマンソルバーは深く結合されたパイプラインです。初期宇宙の再結合のモデリングにおけるわずかな数値誤差や不適切な近似は、下流のすべての結果を微妙にずらす可能性があります。したがって、異なる種類のエージェントスキルが要求されます。デバッグには、因果関係をチェーン全体にわたって追跡し、ドメイン知識を引き出す必要があり、これは単一のエージェントが順次作業し、必要に応じてサブエージェントを生成し、参照実装を用いて不一致を二分探索する方が適しているかもしれません。
計算環境としてはSLURMジョブスケジューラを実行するHPCクラスタを使用しますが、進捗ファイル、テストオラクル、明確なルールを持つエージェントプロンプトという核心的な考え方は、Claude Codeを実行する場所に関係なく適用されます。
計画を草案しローカルで反復する
エージェントからなる自律的研究チームを管理するこの新しいアプローチでは、あなたの時間の大半を(Claudeと相談しながら)、プロジェクトの成果物と関連する背景を明確に説明する一連の指示を作成することに費やすべきです。これらの指示は、ルートディレクトリにあるCLAUDE.mdファイルに保存する必要があります。Claudeはこのファイルを特別に扱い、全体計画のためにコンテキストに保持し参照します。重要なことに、Claudeは作業中にこれらの指示を編集し、問題に対処しながら将来の作業のために更新することができます。
以下は宇宙論的ボルツマンソルバープロジェクトの初期のCLAUDE.mdで、ソルバー実装の初期試行後に体系化された全体計画と設計決定を示しています。これに到達するために、私はプロジェクトの高レベルの目標(参照CLASS実装との完全な機能同等性を達成しつつ完全に微分可能であること、主要な科学的出力においてCLASSに対して0.1%の精度目標を達成すること)を指定し、計画が満足のいくものになるまでClaudeと反復を重ねました。0.1%は2つの標準的なボルツマンコードCLASSとCAMBの間で通常見られる一致レベルであるため、これは適切な科学的目標と考えられました。
セッション間のメモリ
慣例的にここではCHANGELOG.mdと呼ぶ進捗ファイルは、エージェントのポータブルな長期記憶として機能し、一種の実験ノートの役割を果たします。CLAUDE.mdでは、Claudeはこのファイルに進捗を記録するように指示されました。
優れた進捗ファイルは、現在のステータス、完了したタスク、失敗したアプローチとその理由、主要なチェックポイントにおける精度表、既知の制限事項などを記録するかもしれません。失敗したアプローチは重要です。それらが記録されていないと、後続のセッションが同じ行き止まりを再び試みてしまうからです。エントリは次のようになるかもしれません:「摂動ODEにTsit5を使用しようとしたが、システムが硬すぎた。Kvaerno5に切り替えた。」以下は実行例の変更履歴で、これらの要素を示しています。
テストオラクル
エージェントによるよりオープンエンドな科学的発見は確かに近い将来に実現するでしょうが、今日の長時間実行される自律的科学作業は、エージェントが進捗を確認する方法を持つことに極めて依存しています。科学コードの場合、これは参照実装、明確に定量化可能な目標、または既存のテストスイートである可能性があります。また、エージェントにテストスイートを拡張し、作業中にテストを実行するように指示することも、退行を防ぐのに役立ちます。私の例題タスクでは、Claudeは参照実装としてCLASSのCソースコードを使用してユニットテストを構築し、継続的に実行するように指示されました。
調整手段としてのGit
Gitは、手を離してエージェントの進捗を監視し調整する良い方法になり得ます。エージェントは意味のある作業単位ごとにコミットとプッシュを行うべきです。これにより、何か問題が発生した場合に回復可能な履歴が得られ、ローカルで進捗が見えるようになり、例えば計算割り当てがセッション途中で切れた場合に作業が失われるのを防ぎます。
実際には、これはCLAUDE.md内の一連の指示になる可能性があります。例えば「意味のある作業単位ごとにコミットとプッシュを行ってください。すべてのコミット前に pytest tests/ -x -q を実行してください。既存の合格テストを壊すコードをコミットしないでください。」
エージェントを操縦するために、クラスタにSSHで接続し、手動で再プロンプトや指示の更新をいつでも行うことができます。通常、単にローカルインスタンスのClaude CodeにSSH接続してコマンドを実行するように依頼する方が、人間工学上優れています。これは以下で説明するすべてにも適用されます。
実行ループ
前述のように、合理的に見える計画がCLAUDE.mdに記述されるまで、まずローカルで計画を反復することがしばしば有用です。そこから、計算ノード上のtmuxなどのターミナルマルチプレクサ内でClaude Codeセッションを開始し、エージェントにコードベースの場所を伝え、作業させます。セッションはtmux内で実行されるため、デタッチし、ラップトップを閉じ、時折進捗を確認することができます(ボルツマンソルバーの場合、私はコーヒーを待つ列に並んでいる間などにスマートフォンでGitHubをチェックしていました)。
HPCクラスタでは、SLURMスケジューラを介してノードをリクエストするかもしれません。tmuxセッションでClaude Codeを起動する例示的なジョブスクリプトは以下のようになるでしょう:
#!/bin/bash
#SBATCH --job-name=claude-agent
#SBATCH --partition=GPU-shared
#SBATCH --gres=gpu:h100-32:1
#SBATCH --time=48:00:00
#SBATCH --output=agent_%j.log
cd $PROJECT/my-solver
source .venv/bin/activate
export TERM=xterm-256color
tmux new-session -d -s claude "claude; exec bash"
tmux wait-for claudeジョブが開始したら、tmuxセッションにアタッチし、Claude Codeに指示を与え(例:「CHANGELOG.mdを読み、次のタスクを開始してください」)、適切な軌道に乗っていると満足したらデタッチします。以下のようなコマンドを使用して、いつでもチェックイン、操縦、または新しいタスクを開始するために再アタッチできます:
srun --jobid=JOBID --overlap --pty tmux attach -t claudeRalphループ: モデルがより能力を高めるにつれて、プロンプトエンジニアリング、RAG、コンテキスト詰め込みなどの特別なオーケストレーションは少なくて済むようになります。しかし、現時点では、能力向上のためにある程度の足場を提供することが有用です。例えば、現在のモデルはエージェント的怠惰に悩まされることがあります。複雑で多部分からなるタスクを完了するように求められたとき、時々タスク全体を完了する前に止まる言い訳を見つけることがあります(「遅くなってきたので、明日また続けましょうか?」)。
これを回避するために有用なオーケストレーションパターンがRalphループです。これは本質的にforループで、エージェントが完了を主張したときにコンテキストに戻し、本当に完了したかどうかを尋ねます。これは長時間実行タスクに有用です。エージェントはタスクが仕様に達していないことを認め、仕様に達するまで作業を続けるからです。他の同様のパターンには、GSD(およびドメイン固有の変種)やClaude Codeネイティブの/loopコマンドも含まれます。
Ralphは/pluginを介してインストールできます。Claude Codeでの典型的な起動プロンプトは以下のようになるでしょう:
/ralph-loop:ralph-loop "成功基準である全パラメータ範囲にわたる0.1%精度が達成されるまで、タスクに取り組み続けてください。" --max-iterations 20 --completion-promise "DONE"ここで、Claudeは「DONE」の合言葉でタスクが完了したことを保証するまで最大20回反復します。
Claudeは数日間にわたりプロジェクトに一から取り組み、様々な出力において参照CLASS実装との一致率を1%未満に到達させました。私はClaudeに、プロジェクトの過程でコードの主要な出力の一部(様々なCMB角パワースペクトラム)の精度を再構築し、開発中のマイルストーンもラベル付けするよう依頼しました。Claudeは以下のプロットを生成し、1%未満精度への道筋を示しました。
エージェントの開発軌跡はややぎこちないものでした。例えば、テストカバレッジには明らかなギャップがありました。しばらくの間、単一の(基準となる)パラメータポイントでのみコードをテストしており、バグ検出範囲を大幅に縮小していました。また、ゲージ規約につまずいたり、宇宙学者なら即座に気付くバグを何時間も追いかけたりするような初歩的なミスも犯しますが、1%未満精度という目標に向けて着実な進歩を続けました。
このプロジェクトの副次的な効果として、私はgitコミット履歴を観察することで、ボルツマンソルバーとそれらがモデル化する物理学について驚くほど多くを学びました。このプロジェクトは私の専門科学領域からは外れていますが、Claudeの漸進的な進歩を追跡し、知らないことを調べることで、科学を浸透させる効果的な方法であることが分かりました。コミットログは、高速で超文字通りのポスドクの実験ノートのように読めます。
結果として得られたソルバーはプロダクショングレードではありません(例えば、すべての領域で参照CLASS実装と許容できる精度で一致しているわけではありません)が、エージェント主導の開発が研究者の数ヶ月から数年に及ぶ作業を数日に圧縮できることを実証しています。
この種の圧縮は、何がアイドル時間と見なされるかを変えます。AI研究における普遍的な経験は、実験(例えばトレーニング実行)を夜間に起動し、翌朝に結果を見る満足感を得ることです。実験を実行しないことは機会費用を伴います。最近では、エージェントを実行しないことも同様に費用がかかるように感じられます。計算リソースと明確な成功基準を持つプロジェクトがあれば、エージェントに作業させない夜は、潜在的な進歩をテーブルに残したままにしていることになります。
謝辞
Eric Kauderer-Abrams氏の査読、およびXander Balwit氏、Ethan Dyer氏、Rebecca Hiscott氏の有益なフィードバック提供に感謝します。
関連コンテンツ
当社の科学ブログを紹介します
AIと科学に関する新しいブログを立ち上げます。Anthropic内外での研究、外部研究者や研究室との協力関係、科学者が自身の研究でAIを使用する実践的なワークフローについて共有します。
雰囲気物理学:AI大学院生
AIは理論物理学ができるのか?私は実際の研究計算をClaudeに監督させ、最初から最後まで、自分では一切ファイルに触れずに確かめてみることにしました。
AIの労働市場への影響:新しい測定方法と初期証拠

原文を表示
Long-running Claude for scientific computing
In this post, Siddharth Mishra-Sharma explains how to apply multi-day agentic coding workflows—test oracles, persistent memory, and orchestration patterns—to scientific computing tasks even outside of one’s domain.
Most scientists currently using AI agents work in a conversational loop, managing each step of the process on a tight leash. As models have become significantly better at long-horizon tasks over the last year or so, a new way of working emerged: rather than getting involved with every detail, we can specify the high-level objective and set a team of agents loose to work autonomously. This makes it possible to complete projects in mere hours that might otherwise take us days, weeks, or even months. Certain types of scientific tasks fit well within this model, e.g., reimplementing a numerical solver, converting legacy scientific software written in an old Fortran dialect to a modern language, and debugging a large codebase against a reference implementation. These are tasks where the work is well-scoped, the success criteria are clear, and human oversight can be occasional rather than continuous.
Anthropic’s C compiler project demonstrated a version of this, where Claude worked across roughly 2,000 sessions to build a C compiler capable of compiling the Linux kernel. This post describes how to set up a similar pattern for scientific computing tasks using Claude Code, with a typical academic lab in mind. As a concrete example, I will walk through using Claude Opus 4.6 to implement a differentiable version of a cosmological Boltzmann solver. This is numerical code that predicts the statistical properties of the afterglow of the Big Bang—the Cosmic Microwave Background, or CMB. It does this by evolving coupled equations for photons, baryons, neutrinos, and dark matter through the early universe.
Boltzmann solvers like CLASS and CAMB are core pieces of scientific infrastructure in cosmology, allowing us to constrain cosmological models using data from surveys like Planck and the Simons Observatory. A differentiable version—one that can propagate gradients through the full solver—enables the use of gradient-based inference methods, dramatically speeding up parameter estimation. Writing it in JAX is a natural fit here, since it gives us automatic differentiation and compatibility with accelerators (e.g., GPUs) essentially for free. Notably, the task isn’t in my core scientific domain—I have a high-level familiarity with the tools and the science, but don’t have the expertise to complete it myself in any reasonable time frame. Groups who do have that expertise have built differentiable solvers in JAX with a subset of the features present in CLASS. These efforts typically represent months to years of researcher-time. The point here was to see if an agent could go further with minimal steering from a non-domain expert.
This kind of task is structurally different from the C compiler project, which can be farmed out to a large number of parallel agents. A Boltzmann solver, on the other hand, is a deeply coupled pipeline—a small numerical error or poor approximation in modeling how the early universe recombines can subtly shift everything downstream. It thus requires a different set of agent skills. Debugging requires tracing causally through the entire chain and drawing from domain knowledge, which may be better suited to a single agent working sequentially, spawning subagents as needed, and using the reference implementation to bisect discrepancies.
We'll use an HPC cluster running the SLURM job scheduler as our compute environment, but the core ideas—a progress file, a test oracle, an agent prompt with clear rules—apply regardless of where you run Claude Code.
Draft a plan and iterate locally
In this shift toward managing an autonomous research team of agents, you should spend most of your time (in consultation with Claude), crafting a set of instructions that clearly articulates the project’s deliverables and relevant context. These instructions should live in a CLAUDE.md file located in the root directory. Claude treats this file specially, keeping it in context and referencing it for the overall plan. Crucially, Claude can edit these instructions as it works, updating them for future work as it works through issues.
Here is an early CLAUDE.md for the cosmological Boltzmann solver project, showing the overall plan and design decisions codified after an initial attempt at writing the solver. To arrive at this, I specified the high-level goals of the project—achieving full feature-parity with the reference CLASS implementation while being fully differentiable, and having an accuracy target of 0.1% against CLASS in the main science deliverables—and iterated with Claude until the plan seemed satisfactory. Given that 0.1% is the typical level of agreement between the two canonical Boltzmann codes CLASS and CAMB, this seemed like a good science target.
Memory across sessions
The progress file, which by convention we call here CHANGELOG.md, is the agent’s portable long-term memory, acting as a sort of lab notes. In CLAUDE.md, Claude was instructed to keep track of progress in this file.
A good progress file might track current status, completed tasks, failed approaches and why they didn't work, accuracy tables at key checkpoints, and known limitations. The failed approaches are important—without them, successive sessions will re-attempt the same dead ends. An entry might look like: “Tried using Tsit5 for the perturbation ODE, system is too stiff. Switched to Kvaerno5.” Here is the changelog for the running example, showing these elements.
The test oracle
While more open-ended scientific discovery via agents is certainly on the horizon, long-running autonomous scientific work today crucially depends on the agent having a way to know whether it’s making progress. For scientific code, this could be a reference implementation, a clearly quantifiable objective, or an existing test suite. It can also be helpful to instruct the agent to expand the test suite and run tests as it works, to prevent regressions. In my example task, Claude was instructed to construct and continuously run unit tests using CLASS C source as a reference implementation.
Git as coordination
Git can be a good way to monitor and coordinate the agent’s progress in a hands-off manner. The agent should commit and push after every meaningful unit of work. This gives you a recoverable history if something goes awry, makes progress visible locally, and prevents work from being lost if, for instance, your compute allocation runs out mid-session.
Practically, this could be a set of instructions in CLAUDE.md, e.g. “Commit and push after every meaningful unit of work. Run pytest tests/ -x -q before every commit. Never commit code that breaks existing passing tests.”
For steering the agent, you can always SSH into the cluster and manually re-prompt and/or update its instructions. It is typically more ergonomic to simply ask a local instance of Claude Code to SSH in and run commands for you; this will also apply to everything described below.
The execution loop
As mentioned above, it’s often useful to first iterate on the plan locally until you have one that looks reasonable and is encoded in CLAUDE.md. From there, start a Claude Code session inside a terminal multiplexer like tmux on a compute node, tell the agent where to find your codebase, and let it cook. Because the session runs inside tmux, you can detach, close your laptop, and occasionally check on progress (in the case of the Boltzmann solver, I would check in on GitHub on my phone, e.g. while waiting in line for a coffee).
On an HPC cluster you might request a node through the SLURM scheduler, and an example job script that launches Claude Code in a tmux session might look like the following:
#!/bin/bash #SBATCH --job-name=claude-agent #SBATCH --partition=GPU-shared #SBATCH --gres=gpu:h100-32:1 #SBATCH --time=48:00:00 #SBATCH --output=agent_%j.log cd $PROJECT/my-solver source .venv/bin/activate export TERM=xterm-256color tmux new-session -d -s claude "claude; exec bash" tmux wait-for claude
Copy Once the job starts, you attach to the tmux session, give Claude Code direction (e.g., “Read CHANGELOG.md and pick up the next task”), and detach when you're satisfied it's on the right track. You can re-attach whenever you want to check in, steer, or start a new task using something like:
srun --jobid=JOBID --overlap --pty tmux attach -t claude
Copy The Ralph loop: As models get more capable, they require less bespoke orchestration such as prompt engineering, RAG, or context stuffing. At a given point in time, however, it can be useful to provide some level of scaffolding as a capability uplift. For example, current models can suffer from agentic laziness—when asked to complete a complex, multi-part task, they can sometimes find an excuse to stop before finishing the entire task (“It’s getting late, let’s pick back up again tomorrow?”).
To circumvent this, a useful orchestration pattern is the Ralph loop, which is essentially a for loop which kicks the agent back into context when it claims completion, and asks if it’s really done. This can be useful for long-running tasks since the agent will admit the task is not up to spec, and continue working until it is. Other similar patterns include GSD (and domain-specific variants) as well as the native-to-Claude Code /loop command.
Ralph can be installed via /plugin. A typical invocation prompt in Claude Code could look like
/ralph-loop:ralph-loop “Please keep working on the task until the success criterion of 0.1% accuracy across the entire parameter range is achieved.” --max-iterations 20 --completion-promise “DONE”
CopyHere, Claude will iterate up to 20 times until it guarantees that the task is done with a “DONE” incantation.
Claude worked on the project from scratch over a few days, reaching sub-percent agreement with the reference CLASS implementation across its various outputs. I asked Claude to reconstruct the accuracy of some of the main outputs of the code—the various CMB angular power spectra—over the course of the project, also labeling milestones during development. It produced the plot below, illustrating the path to sub-percent accuracy.
The agent’s development trajectory was somewhat clunky. For example, there were clear gaps in its test coverage—for a while it was only testing the code at a single (fiducial) parameter point, drastically reducing its bug-catching surface area. It can also make elementary mistakes, such as tripping over gauge conventions or spending hours chasing bugs that a cosmologist would spot instantly, but it kept making sustained progress towards the stated goal of sub-percent accuracy.
A side effect of the project was that I learned a surprising amount about Boltzmann solvers and the physics they model by watching the git commit history. The project isn’t drawn from my core scientific domain, but following Claude’s incremental progress and looking up what I didn't recognize turned out to be an effective way to osmose the science. The commit log reads like lab notes from a fast, hyper-literal postdoc.
While the resulting solver is not production-grade (e.g., it doesn’t match the reference CLASS implementation to an acceptable accuracy in every regime), it demonstrates that agent-driven development can compress months or even years of researcher work into days.
This kind of compression changes what counts as idle time. A universal experience in AI research is to launch an experiment (e.g., a training run) overnight and then have the satisfaction of seeing the results in the morning. Not running the experiment comes with an opportunity cost. These days, not running agents feels like it has a cost as well. If you have the compute and projects with well-defined success criteria, every night you don't have agents working for you is potential progress left on the table.
Acknowledgments
We thank Eric Kauderer-Abrams for peer-review, as well as Xander Balwit, Ethan Dyer, and Rebecca Hiscott for providing helpful feedback.
Related content
Introducing our Science Blog
We’re launching a new blog about AI and science. We’ll share research happening at Anthropic and elsewhere, collaborations with external researchers and labs, and discuss practical workflows for scientists using AI in their own work.
Vibe physics: The AI grad student
Can AI do theoretical physics? I decided to find out by supervising Claude through a real research calculation, start to finish, without ever touching a file myself.
Labor market impacts of AI: A new measure and early evidence

関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み