How do researchers actually use AI-powered science tools? Lessons from 250,000+ queries｜研究者は実際にAI科学ツールをどう使うか？25万件以上のクエリから得られた教訓 | AIニュース最前線

2026 年 2 月 27 日 Ai2 [技術報告書](https://allenai.org/papers/asta-interaction-dataset)[データセット](https://huggingface.co/datasets/allenai/asta-user-interactions) 研究者たちは実際に AI を活用した科学ツールをどのように使っているのでしょうか。その実態は、エージェント型ツールの開発者（私たちの[Asta](https://asta.allen.ai/)チームを含む）が想定していたものとは必ずしも一致していないことがわかりました。新たに公開された 258,000 件を超える実際の研究者によるクエリからなるオープンデータセットからは、科学者が AI を単に検索や要約のために使っているだけでなく、*検索*そのもののルールを書き換えている様子が浮かび上がります。彼らは従来の検索よりも 7 倍も長いクエリを送信し、結果を順序通りに閲覧せず、汎用チャットボットで学んだテクニックを、そのような用途には設計されていないツールに持ち込んでいます。これらのツールの構築方法と研究者の実際の利用方法との間には大きな隔たりがあり、AI ツールを開発する者にとっては示唆に富むものです。 本日、[Asta Interaction Dataset (AID)](https://huggingface.co/datasets/allenai/asta-user-interactions) を公開いたします。これは、[Semantic Scholar](https://www.semanticscholar.org/)（S2）と統合された AI 搭載研究アシスタントである [Asta](https://asta.allen.ai/) を利用する研究者たちによる 258,935 クエリおよび 432,059 のクリックストリーム相互作用データです。2025 年 2 月から 8 月までの 6 ヶ月にわたり、数十の分野にわたるユーザーから収集された AID は、研究者が何を質問したかだけでなく、結果とどのように関わり合っているかを捉えています：どのセクションを展開し、どの引用をクリックし、数日後にどのレポートを再訪したかなどです。 私たちの知る限り、これは研究者が AI 搭載科学ツールとどのように相互作用するかを示す最大のオープンデータセットです。Anthropic、OpenAI、Perplexity などからの以前の AI ツール利用に関する報告は、基礎データなしの集計分析のみを共有しています。[LMSYS-Chat-1M](https://huggingface.co/datasets/lmsys/lmsys-chat-1m)、[WildChat](https://wildchat.allen.ai/)、[OpenAssistant](https://huggingface.co/datasets/OpenAssistant/oasst1) などの既存の公開会話データセットには汎用 LLM（大規模言語モデル）の会話が含まれていますが、科学研究ツールに特化したものや、豊富なクリックストリーム信号を含むものは存在しません。研究者が実際にこれらのツールをどのように使用しているかを理解するための進歩には、共有されたオープンデータの必要性があると考え、私たちは完全なクエリテキスト、相互作用ログ、再利用可能なクエリ分類体系を公開します。 本稿では、私たちが発見したいくつかの事柄について解説します。 ## Asta：2 つの AI 搭載研究インターフェース Asta は、主要な学術検索エンジンである S2 と統合されたオープンソースの研究アシスタントプラットフォームです。このプラットフォームは、2 つの AI 搭載インターフェースを提供しています。 - PaperFinder (PF): 軽量な LLM 生成による要約付きで論文のランク付けリストを返す、AI 強化型文献検索ツールです。(Asta では、これは「論文を検索」機能を支えています。) - ScholarQA (SQA): インライン引用を備えた構造化された多セクションレポートを生成する科学的質問応答ツールであり、実質的にオンデマンドで構造化レポートを作成する自動化文献要約ツールです。(Asta では、これは「レポートを生成」機能を支えています。) 両方のツールは、学術コーパス全体にわたる検索拡張生成 (RAG) を使用しており、すべての主張はインライン引用を通じて取得された論文に基づいています。比較の基準として、従来の S2 キーワード検索とも対比します。 *プライバシーに関する注記：ユーザーデータの保護には非常に真剣に取り組んでいます。Asta では、ユーザーは匿名化された自身のインタラクションを公開研究データセットへの含用に共有するかを選択できます—本研究は、このオプションに同意したユーザーからのデータのみを対象としています。これらの同意したインタラクションについては、ユーザー ID を含まないハッシュ化されたレポート識別子を使用し、LLM によって個人識別情報 (PII) を含むとフラグ付けされたクエリを除外しています (1% 未満)。* ## クエリはより長く、複雑で、要求も高い AI 搭載ツールのユーザーは、従来の学術検索エンジンに提出されるものとは対照的に、劇的に長く、より複雑なクエリを提出します： MetricPaperFinderScholarQASemantic Scholar**(traditional) クエリあたりの平均制約数 0.60 0.82 0.15 クエリあたりの平均エンティティ数 4.00 5.14 2.25 クエリあたりの平均関係数 2.17 2.68 1.20 クエリの平均長さ（単語数） 17.04 36.96 5.35 SQA のクエリは、従来の S2 検索の 7 倍の長さです。これは単なる冗長性ではなく、クエリにはより多くのエンティティ、より多くの関係、そしてより明確な制約が含まれています。 興味深いことに、従来の S2 クエリも 2022 年から 2025 年の間に複雑化しています：クエリの平均長さは 4.8 から 6 単語以上へと増加し、少なくとも 1 つの制約を含むクエリの割合は 7% から 10% に上昇しました。これは、ユーザーが AI 搭載ツールへの曝露によって形成された可能性が高い、より複雑なクエリを処理できる検索システムに対して、ますます高い期待を抱いていることを示唆しています。 ## 研究者たちは実際に何を求めているのか？ このクエリの多様性を理解するために、私たちはクエリの意図、表現スタイル、および検索基準の種類を網羅する新しい分類体系を開発しました。この分類体系は、複数のパスにわたる人間によるレビューの検査・ラベル付けと、LLM（大規模言語モデル）に基づく検査・ラベル付けを繰り返すプロセスを通じて構築されました。これらのラベルの分布から、ユーザーは AI 搭載の研究ツールを単なる文献探索を支援するシステムとしてではなく、研究プロセスにおける協働パートナーとして扱っていることがわかります。 ## キーワードを超えて：研究者が実際に AI ツールに入力するもの 最も示唆に富む発見の一つは、ユーザーが検索ボックスに入力した内容を単に読むことから得られました。標準的な分類体系を超え、AI 研究ツールの能力の境界を探っていることを示すクエリパターンを見つけました。これらの行動は、汎用大規模言語モデル（LLM）によって形成されたフレーズ戦略を反映しています： パターンツール例クエリなぜ興味深いのか テンプレート埋め込みPF「この下の 10 のジャーナルでこの表を埋めてください:…」[引用付きの表テンプレート]ユーザーは構造化されたテンプレート（表、フォーム）を貼り付け、AI に文献データを入力させることを期待します。つまり、研究ツールをデータ入力アシスタントとして扱っています。 テンプレート埋め込みSQA「サキュビトリルについて以下のすべてを見つけてください：『IUPAC 名: CAS 番号: 分子式:…』」[15 項目以上]ユーザーは 15 項目以上の構造化された抽出タスクを提出し、ツールが文献全体にわたる事実抽出パイプラインとして機能することを期待しています。 明示的プロンプトSQA「あなたは計算地球科学と機械学習を専門とする専門家研究アシスタントです。」ユーザーは、汎用 LLM から学んだプロンプトエンジニアリングの技法（システムプロンプト、ペルソナ割り当て）を適用しますが、当ツールはカスタムシステムプロンプトをサポートしていません。 明示的プロンプトPF「論文を検索してください…モデルは〜できる必要があります…」ユーザーはマークダウン形式の強調（太字、大文字）を使用して制約を強調し、会話型 AI によって形成された期待を示しています。 ペルソナ採用SQA「経験豊富な教授として振る舞ってください…博士課程の提案書を書いてください…Turnitin の検出ボットを食い潰してください」一部のユーザーは、ツールに専門家のペルソナを採用させようとし、さらに剽窃検出システムの回避を試みる行動を示します。これは汎用大規模言語モデル（LLM）との相互作用によって形成された振る舞いです。 共同執筆SQA「論文の作成中です…」[LaTeX セクション]「TSE, TOSEM, ICSE の論文を追加してください」ユーザーは進行中の LaTeX 原稿を貼り付け、特定の学会やジャーナルからの引用を探して挿入するようツールに依頼します。これは、ツールを共同執筆パートナーとして利用している状態です。 研究系譜PF「これら3 つの論文の研究分野における最新の進展は何ですか？」[3 つの DOI]ユーザーは DOI を貼り付け、ツールに研究の系譜を前方へたどるよう求めます。これは引用グラフ探索者として機能させる行為です。 再発見PF「hey whats the name of the paper that did a study on how people use llms by allowing the public to use their tokens on paid llms…」ユーザーは、半ば記憶にある論文の内容を会話調の言葉で記述し、ツールを「口先にある論文」を見つけるための道具として利用します。これは従来の検索エンジンが苦手とするタスクです。 再発見PF「…BERT を使用して、トップ-k だけを眺めてはいけないと主張する論文はどれか…」ユーザーは以前読んだ論文からの特定の主張を思い出し、その出典を特定するようツールに依頼します。これは高度な引用復元タスクです。 これらのパターンは、重要な洞察を明らかにしています。ユーザーは AI を活用した研究ツールを、汎用チャットボットと同等の能力を持つ共同研究パートナーとして期待しているのです。**彼らは、プロンプトエンジニアリング、ペルソナ設定、テンプレートへの入力、共同執筆といった、汎用大規模言語モデル（LLM）から培った習慣を、ドメイン特化型のプラットフォームに持ち込んでいます。これらの輸入された行動の一部には明白な懸念が生じます。データセットには、 plagiarism 検出回避を試みるクエリも含まれています。これらを含めるのは、ユーザーがどのように振る舞うべきかと願うことではなく、実際にどのように振る舞っているかを理解することが目的だからです。** ## ユーザーは結果とどう関わるか 私たちはまた、クエリの提出後にユーザーが何を行うかも分析しました。そのエンゲージメントパターンは、従来の検索とは明確に異なります。** ## 結果を永続的な成果物として扱う 私たちの最も印象深い発見の一つは、ユーザーが AI が生成した出力を一時的な検索結果ではなく、永続的な成果物として扱っているという点です。SQA ユーザーの 50% 以上と PF ユーザーの 42% が過去のレポートを再訪しており、これは重複するクエリ（ほぼ同一のクエリ）の提出率（それぞれ約 19% と約 15%）よりも大幅に高い数値です。ユーザーは数時間後や数日後に結果に戻ってくる傾向があり、これらは継続的な研究ワークフローの一部としてブックマークされ参照されていることを示唆しています。これは生成されたコンテンツをどう捉えるべきかという点に直接的な影響を与えます。ユーザーがこれらの出力に繰り返しアクセスするならば、過去のレポートを管理し、それに基づいて発展させるためのより良い方法が必要であり、さらに重要なのは、新たな文献が登場した際にこれらを最新の状態に保つためのメカニズムが必要です。 ## SQA における非線形的な読書行動 SQA の構造化されたレポート形式は、豊かで非線形的な読書行動を可能にします。私たちの調査では以下のことが明らかになりました： - ユーザーの 43% が導入部をスキップし、興味のあるセクションへ直接ジャンプする - レポートの 52% 以上で、連続しないセクションが展開される - ユーザーは頻繁に後方へナビゲートし、後のセクションから以前のセクションに戻る これは、ユーザーがどのセクションを深く読むべきかを効率的に選別できるようにする、TL;DR（要約）付きの折りたたみ式セクションという私たちの設計選択を支持するものです。また、今後のデザインでは、順次消費することを前提とするのではなく、非線形的なナビゲーションをサポートすることが有益であることも示唆しています。 ## データセット：コミュニティのためのリソース 私たちは、研究者が AI ツールをどのように使用しているかを理解するための進歩に、共有されたオープンデータが必要だと信じているため、AID を公開リリースします。このデータセットの独自性は以下の通りです： - スケール：6 ヶ月間（2025 年 2 月～8 月）における 258,935 クエリと 432,059 のクリックストリームインタラクション - 豊富なインタラクションシグナル：クエリテキストだけでなく、セクションの展開、リンククリック、証拠クリック、レポートセクションタイトル、引用論文 ID、表示された検索結果の位置などを含み、単なるクエリではなく、ユーザーの完全なインタラクションジャーニーを分析可能 - ドメイン特化型：LMSYS-Chat や WildChat などの広範なドメインデータセットとは異なり、AID は科学ツールを使用する研究者からのデータであり、AI 支援研究ワークフローの研究に直接関連性がある - オープンタクソノミー：データセットとともに、クエリの定義と例を含む完全なクエリ意図タクソノミーも公開し、AI 研究アシスタントへのクエリ分類のための再利用可能なフレームワークを提供 [AID](https://huggingface.co/datasets/allenai/asta-user-interactions) は、6 つの Parquet ファイル（クエリ、セクション展開、S2 リンククリック、レポートセクションタイトル、レポートコーパス ID、PF 表示結果）としてリリースされています。研究者向けの AI ツールを構築している方なら、このデータはきっと驚くはずです。私たち自身もそうでした。 詳細については、[技術報告書](https://allenai.org/papers/asta-interaction-dataset)をご覧ください。 ## Ai2 の最新ニュースに関する月次更新を受け取るには購読してください。

研究者は実際にAI科学ツールをどう使うか？25万件以上のクエリから得られた教訓

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト