AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
LangChain Blog·2026年6月12日 05:49·約6分で読める

最も賢い AI でも不十分な場合、ベンチリングがエージェントを構築する方法

#AI エージェント#RAG#科学 AI#Benchling#LLM 依存の限界
TL;DR

Benchling の AI 責任者ニコラス・ララスストーンは、LangChain との対談で、科学分野におけるエージェント構築において「最も賢い AI モデル」への依存が限界に達している現状と、それを補うための具体的なアーキテクチャ戦略を解説した。

AI深層分析2026年6月12日 07:14
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
4

キーポイント

1

モデルの限界と実用化の壁

科学分野では、単に「最も賢い」AI モデルを使用しても、複雑な実験設計やデータ整合性の確保において十分な精度が出ない場合があり、エージェントの信頼性が課題となっている。

2

コーディングエージェントからの教訓

ソフトウェア開発で成功したエージェントのパターン(計画・実行・検証)がそのまま科学分野に適用できるわけではなく、ドメイン固有の制約や不確実性への対応が必要である。

3

Benchling AI のアプローチ

2025 年 10 月にローンチした Benchling AI は、チャットインターフェースとエージェントを組み合わせ、科学者がデータを検索し、実験を設計し、レポートを作成するのを支援するインテリジェンスレイヤーとして機能している。

4

専門家の背景と統合

Benchling の AI 責任者であるニコラス・ララスストーンは、分析スタートアップ Sphinx Bio を創業し、同社を Benchling が買収した経験を持つことから、実務的な知見に基づいたエージェント設計が可能となっている。

影響分析・編集コメントを表示

影響分析

この記事は、汎用的な LLM の性能向上だけでは実世界の複雑なタスク(特に科学分野)を解決できないという現実を示しており、AI エージェントの設計において「ドメイン知識の統合」と「厳密な検証プロセス」の重要性を再認識させる内容です。企業にとっては、単にモデルを選定するだけでなく、独自のワークフローや制約条件に合わせてエージェントをカスタマイズする戦略的アプローチが不可欠であるという示唆を与えています。

編集コメント

科学分野における AI の実装課題を、現場の責任者が率直に語る貴重なケーススタディです。モデル性能への過度な期待を戒め、アーキテクチャ設計の重要性を浮き彫りにしています。

image
image

Nicholas Larus-Stone は、ライフサイエンス企業が実験、サンプル、機器、分析データを保存・管理するために使用する R&D データプラットフォームであるBenchling の AI 部門責任者です。Benchling は 2012 年から運営されています。2025 年 10 月には、チャットインターフェースを備え、エージェントによって支えられるインテリジェンスレイヤー「Benchling AI」を発表しました。これは科学者がデータを検索し、実験を設計し、レポートを作成するのを支援します。Nick は、彼が設立した分析スタートアップであるSphinx Bio (acquired) を Benchling が買収した際に同社に加わりました。

この LangChain 共同創設者兼 CEO のHarrison Chase との対談で、Nick は科学業務向けにエージェントを構築するために必要なものについて、またコーディングエージェントからの教訓がどこまで通用し、どこで破綻するかについて解説します。

🎧 完全な対談はYouTubeでご覧ください。または、Apple Podcasts や Spotify で聴取・購読してください。

学んだこと

なぜ Benchling は同じタスクに複数のモデルを実行するのか

Benchling は、同じモデルを複数回実行するのではなく、異なるプロバイダー間で実行します。異なるモデルファミリーは異なるミスを犯すため、チームにとってはより強力な品質指標となります。複数のモデルが合意すれば、データ品質が良いことを示し、複数のモデルが不一致を示せば、通常はエラーが存在します。

「それぞれがわずかに異なるエラーを犯しますが、異なるモデルプロバイダーに問いかけることができることで、私たちははるかに優れたパフォーマンスを得ることができました。」

Benchling のトレースレビューへのアプローチ

科学研究の世界では、評価(evals)だけでは限界があります。Benchling は、本番環境のトレース(traces)を確認するために構造化されたアプローチを採用しています。毎週、ローテーションで「火消し係(fire chief)」が指名され、その週の技術運用会議で取り上げられる課題に対処し、フラグを立てます。外部からのシグナルとしては、ユーザーフィードバックの「いいね」と「いいねしない」を確認します。

「特定の機能に取り組んでいる人たちはトレースを確認します。製品マネージャーや、機能を構築しているエンジニアは、リリース後にその機能がどのように使われているかを実際に確認しに行きます。」

エージェントは科学作業に大きな影響を与えている

ニコラス氏は、エージェントがワークフローを圧縮し、回答を得るために必要な実験回数を減らしている点を指摘しています。ステップ間の無駄な時間を削減することで、1 日節約することが結果として 1 週間節約につながることがよくあります。さらに、エージェントは科学者が結論に至るまでに必要な試行回数を減らすよう、事前に実験をより厳密に設計する手助けもしています。

その他議論されたトピック

  • なぜベンチリングが初期段階でクリーンなデータを得るためにこれほど巨額の投資を行うのか
  • 各モデルからより多くの成果を引き出すために、どのようにして異なるモデル間で回答のクロスチェックを行っているか
  • なぜ、またどのようにしてベンチリングが生産環境のトレース(production traces)に依存しているのか
  • AI が現在科学において実際に貢献できる領域と、まだ行き詰まっている領域はどこか
  • LLM の理解がソフトウェアエンジニアリングよりも生物学に近い理由

エージェントは科学作業に大きな影響を与えている

ニコラス氏は、エージェントがワークフローを圧縮し、回答を得るために必要な実験回数を減らしている点を指摘しています。ステップ間の無駄な時間を削減することで、1 日節約することが結果として 1 週間節約につながることがよくあります。さらに、エージェントは科学者が結論に至るまでに必要な試行回数を減らすよう、事前に実験をより厳密に設計する手助けもしています。

その他議論されたトピック

  • なぜベンチリングが初期段階でクリーンなデータを得るためにこれほど巨額の投資を行うのか
  • 各モデルからより多くの成果を引き出すために、どのようにして異なるモデル間で回答のクロスチェックを行っているか
  • なぜ、またどのようにしてベンチリングが生産環境のトレース(production traces)に依存しているのか
  • AI が現在科学において実際に貢献できる領域と、まだ行き詰まっている領域はどこか
  • LLM の理解がソフトウェアエンジニアリングよりも生物学に近い理由

タイムスタンプ

  • 00:00 イントロダクション
  • 01:22 Benchling AI とその背後にある 14 年間のデータプラットフォームとは何か
  • 04:36 なぜ 10 年分の構造化データが中核的な優位性となるのか
  • 05:57 内部アーキテクチャの概要
  • 08:28 コーディングハッチ(コード実行環境)との類似点と相違点
  • 11:14 Benchling のマルチエージェントアーキテクチャ
  • 14:36 検証可能なタスクと不可能なタスクへの対応
  • 16:19 クリーンなベンチマークが利用できない場合の評価(evals)の実施方法
  • 18:13 コンテキストエンジニアリング:SQL とファイルベースのハッチの違い
  • 22:11 メモリ:自らスキルを生成・更新するエージェント
  • 25:30 科学者向けのユーザー教育とはどのようなものか
  • 30:33 なぜ LLM(大規模言語モデル)の理解はソフトウェアよりも生物学に近いのか
  • 33:28 エージェントが疾患に対する画期的な治療法を発見するのはいつになるか
  • 44:58 ハッチ(実行環境)の科学における未来
  • 48:13 なぜ生物学へのファインチューニングが最先端モデルに勝てなかったのか

‍

Max Agency をさらに活用する

image
image

LangChain の CEO であるハリソン・チェイスがホストする本シリーズでは、野外で実際にエージェントシステムを設計・展開し、そこから学習している開発者たちと深く掘り下げていきます。アーキテクチャの決定から評価(evals)、ツール、そして失敗モードに至るまで、「有用なエージェントを構築するために本当に何が必要か」を理解したい人々向けに、Max Agency はその核心に迫ります。

‍

image
image

エージェントの実際の動作を確認する

LangSmith は、エージェントエンジニアリングプラットフォームであり、開発者がすべてのエージェントの決定をデバッグし、評価の変更を行い、ワンクリックでデプロイできるように支援します。

原文を表示

Nicholas Larus-Stone is the Head of AI atBenchling , the R&D data platform that life science companies use to store and manage their experiments, samples, instruments, and analysis. Benchling has been around since 2012. In October 2025, it launched Benchling AI, an intelligence layer with a chat interface, backed by an agent, that helps scientists find data, design experiments, and write reports. Nick came to Benchling through its acquisition ofSphinx Bio (acquired), the analysis startup he founded.

In this conversation with LangChain Co-Founder & CEOHarrison Chase, Nick walks through what it takes to build agents for scientific work, and where the playbook from coding agents holds up and where it breaks down.

🎧 Watch the full conversation onYouTube, or listen & subscribe onApple Podcasts orSpotify.

What we learned

Why Benchling runs multiple models on the same task

Instead of running the same model multiple times, Benchling runs across different providers. Different model families make different mistakes, so there is a stronger quality indicator for their team. If multiple models agree, it indicates good data quality. If multiple models disagree, there's usually an error.

"Each of them will make slightly different errors... being able to ask different model providers, we found gives us much better performance."

‍

How Benchling approaches trace review

In the world of scientific research, evals can only get you so far. Benchling leans on a structured approach for looking at production traces. Every week, they have a rotating fire chief who addresses and flags issues that are addressed in their weekly tech operations meeting. For external signals, they look at thumbs up & thumbs down user feedback.

"People who are working on specific features are gonna go look at the traces — our product managers, our engineers who are building something will actually go and see how people are using that feature after releasing it."

‍

‍

Agents are having a big impact in scientific work

Nicholas points out that agents are compressing workflows and reducing the number of experiments needed to get an answer. By reducing dead time between steps, a day saved can often become a week saved. In addition, agents are also helping scientists design experiments more rigorously upfront, reducing the number of runs needed to get to a conclusion.

‍

‍

Other Topics Discussed

  • Why Benchling invests so heavily in getting clean data upfront
  • How they cross-check answers between models to get more out of each one
  • Why and how Benchling leans on production traces
  • Where AI actually helps science today, and where it still gets stuck
  • Why understanding LLMs is closer to biology than software engineering

‍

Timestamps

  • 00:00 Intro
  • 01:22 What Benchling AI is, and the 14-year data platform underneath it
  • 04:36 Why a decade of structured data is a core advantage
  • 05:57 The architecture under the hood
  • 08:28 Similarities and differences compared to a coding harness
  • 11:14 Benchling’s multi-agent architectures
  • 14:36 Dealing with verifiable vs non-verifiable tasks
  • 16:19 Doing evals when clean benchmarks aren’t possible
  • 18:13 Context engineering: SQL vs. file-based harnesses
  • 22:11 Memory: agents that create and update their own skills
  • 25:30 What user education for scientists looks like
  • 30:33 Why understanding LLMs is closer to biology than software
  • 33:28 When will agents discover a novel cure for disease?
  • 44:58 The future of harnesses in science
  • 48:13 Why fine-tuning on biology hasn't beaten frontier models

‍

Get More Max Agency

Hosted by Harrison Chase, CEO of LangChain, each episode goes deep with the builders designing, deploying, and learning from real agent systems in the wild. From architecture decisions to evals, tooling, and failure modes, Max Agency is for people who want to understand what it really takes to build useful agents.

‍

See what your agent is really doing

LangSmith, our agent engineering platform, helps developers debug every agent decision, eval changes, and deploy in one click.

この記事をシェア

関連記事

TechCrunch AI★42026年6月10日 22:33

Jedify が企業向け AI エージェントにビジネス文脈を提供するサービスへ 2400 万ドルを調達

スタートアップの Jedify は、企業が AI エージェントに自社の業務文脈を付与できるプラットフォームの開発を進めるため、2400 万ドルの資金調達を実施した。

Simon Willison Blog★32026年6月13日 08:53

OpenAI WebRTC オーディオセッション、文書コンテキスト機能を追加

Simon Willison氏が開発したツールが、OpenAI の新モデルに対応し、音声対話時に文書のコンテキストを参照可能になった。

AWS Machine Learning Blog★42026年6月13日 05:43

スーパーチャージャー構築:Rocket Close がエージェント型 AI でタイトル業務を最適化する方法

ロケット・カンパニーズ傘下のデトロイト拠点タイトル代理店 Rocket Close は、住宅購入プロセスのボトルネックとなっていた時間のかかる州固有のタイトル調査を、エージェント型 AI を活用することで効率化しました。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む