How Benchling builds agents when the smartest AI isn't smart enough｜最も賢い AI でも不十分な場合、ベンチリングがエージェントを構築する方法 | AIニュース最前線

![image](https://cdn.prod.website-files.com/65c81e88c254bb0f97633a71/6a29be3252993385d9d79a19_Episode%205%20-%20A.png) [Nicholas Larus-Stone](https://www.linkedin.com/preload/#) は、ライフサイエンス企業が実験、サンプル、機器、分析データを保存・管理するために使用する R&D データプラットフォームである[Benchling](https://www.linkedin.com/preload/#) の AI 部門責任者です。Benchling は 2012 年から運営されています。2025 年 10 月には、チャットインターフェースを備え、エージェントによって支えられるインテリジェンスレイヤー「Benchling AI」を発表しました。これは科学者がデータを検索し、実験を設計し、レポートを作成するのを支援します。Nick は、彼が設立した分析スタートアップである[Sphinx Bio (acquired)](https://www.linkedin.com/preload/#) を Benchling が買収した際に同社に加わりました。 この LangChain 共同創設者兼 CEO の[Harrison Chase](https://www.linkedin.com/preload/#) との対談で、Nick は科学業務向けにエージェントを構築するために必要なものについて、またコーディングエージェントからの教訓がどこまで通用し、どこで破綻するかについて解説します。 🎧 完全な対談は[YouTube](https://www.youtube.com/watch?v=RjpTrffSMjE)でご覧ください。または、[Apple Podcasts](https://podcasts.apple.com/us/podcast/the-tool-design-tricks-behind-benchlings-ai-agents/id1891551672?i=1000771169985) や [Spotify](https://open.spotify.com/episode/2bFEj2W290bk2JW1zC6wyp) で聴取・購読してください。 ## 学んだこと ## なぜ Benchling は同じタスクに複数のモデルを実行するのか Benchling は、同じモデルを複数回実行するのではなく、異なるプロバイダー間で実行します。異なるモデルファミリーは異なるミスを犯すため、チームにとってはより強力な品質指標となります。複数のモデルが合意すれば、データ品質が良いことを示し、複数のモデルが不一致を示せば、通常はエラーが存在します。 「それぞれがわずかに異なるエラーを犯しますが、異なるモデルプロバイダーに問いかけることができることで、私たちははるかに優れたパフォーマンスを得ることができました。」 ## Benchling のトレースレビューへのアプローチ 科学研究の世界では、評価（evals）だけでは限界があります。Benchling は、本番環境のトレース（traces）を確認するために構造化されたアプローチを採用しています。毎週、ローテーションで「火消し係（fire chief）」が指名され、その週の技術運用会議で取り上げられる課題に対処し、フラグを立てます。外部からのシグナルとしては、ユーザーフィードバックの「いいね」と「いいねしない」を確認します。 「特定の機能に取り組んでいる人たちはトレースを確認します。製品マネージャーや、機能を構築しているエンジニアは、リリース後にその機能がどのように使われているかを実際に確認しに行きます。」 ## エージェントは科学作業に大きな影響を与えている ニコラス氏は、エージェントがワークフローを圧縮し、回答を得るために必要な実験回数を減らしている点を指摘しています。ステップ間の無駄な時間を削減することで、1 日節約することが結果として 1 週間節約につながることがよくあります。さらに、エージェントは科学者が結論に至るまでに必要な試行回数を減らすよう、事前に実験をより厳密に設計する手助けもしています。 ## その他議論されたトピック - なぜベンチリングが初期段階でクリーンなデータを得るためにこれほど巨額の投資を行うのか - 各モデルからより多くの成果を引き出すために、どのようにして異なるモデル間で回答のクロスチェックを行っているか - なぜ、またどのようにしてベンチリングが生産環境のトレース（production traces）に依存しているのか - AI が現在科学において実際に貢献できる領域と、まだ行き詰まっている領域はどこか - LLM の理解がソフトウェアエンジニアリングよりも生物学に近い理由 ## エージェントは科学作業に大きな影響を与えている ニコラス氏は、エージェントがワークフローを圧縮し、回答を得るために必要な実験回数を減らしている点を指摘しています。ステップ間の無駄な時間を削減することで、1 日節約することが結果として 1 週間節約につながることがよくあります。さらに、エージェントは科学者が結論に至るまでに必要な試行回数を減らすよう、事前に実験をより厳密に設計する手助けもしています。 ## その他議論されたトピック - なぜベンチリングが初期段階でクリーンなデータを得るためにこれほど巨額の投資を行うのか - 各モデルからより多くの成果を引き出すために、どのようにして異なるモデル間で回答のクロスチェックを行っているか - なぜ、またどのようにしてベンチリングが生産環境のトレース（production traces）に依存しているのか - AI が現在科学において実際に貢献できる領域と、まだ行き詰まっている領域はどこか - LLM の理解がソフトウェアエンジニアリングよりも生物学に近い理由 ## タイムスタンプ - 00:00 イントロダクション - 01:22 Benchling AI とその背後にある 14 年間のデータプラットフォームとは何か - 04:36 なぜ 10 年分の構造化データが中核的な優位性となるのか - 05:57 内部アーキテクチャの概要 - 08:28 コーディングハッチ（コード実行環境）との類似点と相違点 - 11:14 Benchling のマルチエージェントアーキテクチャ - 14:36 検証可能なタスクと不可能なタスクへの対応 - 16:19 クリーンなベンチマークが利用できない場合の評価（evals）の実施方法 - 18:13 コンテキストエンジニアリング：SQL とファイルベースのハッチの違い - 22:11 メモリ：自らスキルを生成・更新するエージェント - 25:30 科学者向けのユーザー教育とはどのようなものか - 30:33 なぜ LLM（大規模言語モデル）の理解はソフトウェアよりも生物学に近いのか - 33:28 エージェントが疾患に対する画期的な治療法を発見するのはいつになるか - 44:58 ハッチ（実行環境）の科学における未来 - 48:13 なぜ生物学へのファインチューニングが最先端モデルに勝てなかったのか ## Max Agency をさらに活用する ![image](https://cdn.prod.website-files.com/65c81e88c254bb0f97633a71/6a29c032d3d977e6c19a7bec_Max%20Agency%20-%20Cover%20Art%20-%201920x1080.png) LangChain の CEO であるハリソン・チェイスがホストする本シリーズでは、野外で実際にエージェントシステムを設計・展開し、そこから学習している開発者たちと深く掘り下げていきます。アーキテクチャの決定から評価（evals）、ツール、そして失敗モードに至るまで、「有用なエージェントを構築するために本当に何が必要か」を理解したい人々向けに、Max Agency はその核心に迫ります。 ## ## エージェントの実際の動作を確認する LangSmith は、エージェントエンジニアリングプラットフォームであり、開発者がすべてのエージェントの決定をデバッグし、評価の変更を行い、ワンクリックでデプロイできるように支援します。

最も賢い AI でも不十分な場合、ベンチリングがエージェントを構築する方法

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト