研究者は実際にAI科学ツールをどう使うか?25万件以上のクエリから得られた教訓
Allen AIは、Semantic Scholar統合型AIアシスタント「Asta」の利用者25万人以上のインタラクションデータを公開し、研究者が従来の検索概念を再定義する新しい利用パターンを示した。
キーポイント
大規模オープンデータの公開
25万8千件以上のクエリと43万件以上のクリックストリームデータからなる「Asta Interaction Dataset (AID)」を公開し、AI科学ツールの利用実態を可視化した。
研究者の行動と開発者の想定間のギャップ
研究者は単なる検索や要約だけでなく、従来の7倍も長いクエリを送信したり、結果を順序立てず閲覧したりするなど、ツールの設計意図を超えた高度な使用方法を示している。
一般チャットボットの知見の移植
研究者は一般向けチャットボットで学んだトリックやプロンプトエンジニアリングの手法を、科学専用ツールにも持ち込んでおり、ツールの設計見直しが必要であることを示唆している。
影響分析・編集コメントを表示
影響分析
このデータセットは、AIツール開発者がユーザーの実際の行動パターンを無視して設計を進めるリスクを浮き彫りにした。特に、研究者が「検索」の定義自体を変えつつある点は、今後の科学情報検索ツールのアーキテクチャ設計に重要な示唆を与える。
編集コメント
ツールの設計思想とユーザーの実際の使用方法に乖離があることを示す実証データとして、開発者およびプロダクトマネージャーにとって極めて参考になる事例である。
2026 年 2 月 27 日
Ai2
研究者たちは実際に AI を活用した科学ツールをどのように使っているのでしょうか。その実態は、エージェント型ツールの開発者(私たちのAstaチームを含む)が想定していたものとは必ずしも一致していないことがわかりました。新たに公開された 258,000 件を超える実際の研究者によるクエリからなるオープンデータセットからは、科学者が AI を単に検索や要約のために使っているだけでなく、*検索*そのもののルールを書き換えている様子が浮かび上がります。彼らは従来の検索よりも 7 倍も長いクエリを送信し、結果を順序通りに閲覧せず、汎用チャットボットで学んだテクニックを、そのような用途には設計されていないツールに持ち込んでいます。これらのツールの構築方法と研究者の実際の利用方法との間には大きな隔たりがあり、AI ツールを開発する者にとっては示唆に富むものです。
本日、Asta Interaction Dataset (AID) を公開いたします。これは、Semantic Scholar(S2)と統合された AI 搭載研究アシスタントである Asta を利用する研究者たちによる 258,935 クエリおよび 432,059 のクリックストリーム相互作用データです。2025 年 2 月から 8 月までの 6 ヶ月にわたり、数十の分野にわたるユーザーから収集された AID は、研究者が何を質問したかだけでなく、結果とどのように関わり合っているかを捉えています:どのセクションを展開し、どの引用をクリックし、数日後にどのレポートを再訪したかなどです。
私たちの知る限り、これは研究者が AI 搭載科学ツールとどのように相互作用するかを示す最大のオープンデータセットです。Anthropic、OpenAI、Perplexity などからの以前の AI ツール利用に関する報告は、基礎データなしの集計分析のみを共有しています。LMSYS-Chat-1M、WildChat、OpenAssistant などの既存の公開会話データセットには汎用 LLM(大規模言語モデル)の会話が含まれていますが、科学研究ツールに特化したものや、豊富なクリックストリーム信号を含むものは存在しません。研究者が実際にこれらのツールをどのように使用しているかを理解するための進歩には、共有されたオープンデータの必要性があると考え、私たちは完全なクエリテキスト、相互作用ログ、再利用可能なクエリ分類体系を公開します。
本稿では、私たちが発見したいくつかの事柄について解説します。
Asta:2 つの AI 搭載研究インターフェース
Asta は、主要な学術検索エンジンである S2 と統合されたオープンソースの研究アシスタントプラットフォームです。このプラットフォームは、2 つの AI 搭載インターフェースを提供しています。
- PaperFinder (PF): 軽量な LLM 生成による要約付きで論文のランク付けリストを返す、AI 強化型文献検索ツールです。(Asta では、これは「論文を検索」機能を支えています。)
- ScholarQA (SQA): インライン引用を備えた構造化された多セクションレポートを生成する科学的質問応答ツールであり、実質的にオンデマンドで構造化レポートを作成する自動化文献要約ツールです。(Asta では、これは「レポートを生成」機能を支えています。)
両方のツールは、学術コーパス全体にわたる検索拡張生成 (RAG) を使用しており、すべての主張はインライン引用を通じて取得された論文に基づいています。比較の基準として、従来の S2 キーワード検索とも対比します。
*プライバシーに関する注記:ユーザーデータの保護には非常に真剣に取り組んでいます。Asta では、ユーザーは匿名化された自身のインタラクションを公開研究データセットへの含用に共有するかを選択できます—本研究は、このオプションに同意したユーザーからのデータのみを対象としています。これらの同意したインタラクションについては、ユーザー ID を含まないハッシュ化されたレポート識別子を使用し、LLM によって個人識別情報 (PII) を含むとフラグ付けされたクエリを除外しています (1% 未満)。*
クエリはより長く、複雑で、要求も高い
AI 搭載ツールのユーザーは、従来の学術検索エンジンに提出されるものとは対照的に、劇的に長く、より複雑なクエリを提出します:
MetricPaperFinderScholarQASemantic Scholar**(traditional)
クエリあたりの平均制約数 0.60 0.82 0.15
クエリあたりの平均エンティティ数 4.00 5.14 2.25
クエリあたりの平均関係数 2.17 2.68 1.20
クエリの平均長さ(単語数) 17.04 36.96 5.35
SQA のクエリは、従来の S2 検索の 7 倍の長さです。これは単なる冗長性ではなく、クエリにはより多くのエンティティ、より多くの関係、そしてより明確な制約が含まれています。
興味深いことに、従来の S2 クエリも 2022 年から 2025 年の間に複雑化しています:クエリの平均長さは 4.8 から 6 単語以上へと増加し、少なくとも 1 つの制約を含むクエリの割合は 7% から 10% に上昇しました。これは、ユーザーが AI 搭載ツールへの曝露によって形成された可能性が高い、より複雑なクエリを処理できる検索システムに対して、ますます高い期待を抱いていることを示唆しています。
研究者たちは実際に何を求めているのか?
このクエリの多様性を理解するために、私たちはクエリの意図、表現スタイル、および検索基準の種類を網羅する新しい分類体系を開発しました。この分類体系は、複数のパスにわたる人間によるレビューの検査・ラベル付けと、LLM(大規模言語モデル)に基づく検査・ラベル付けを繰り返すプロセスを通じて構築されました。これらのラベルの分布から、ユーザーは AI 搭載の研究ツールを単なる文献探索を支援するシステムとしてではなく、研究プロセスにおける協働パートナーとして扱っていることがわかります。
キーワードを超えて:研究者が実際に AI ツールに入力するもの
最も示唆に富む発見の一つは、ユーザーが検索ボックスに入力した内容を単に読むことから得られました。標準的な分類体系を超え、AI 研究ツールの能力の境界を探っていることを示すクエリパターンを見つけました。これらの行動は、汎用大規模言語モデル(LLM)によって形成されたフレーズ戦略を反映しています:
パターンツール例クエリなぜ興味深いのか
テンプレート埋め込みPF「この下の 10 のジャーナルでこの表を埋めてください:…」[引用付きの表テンプレート]ユーザーは構造化されたテンプレート(表、フォーム)を貼り付け、AI に文献データを入力させることを期待します。つまり、研究ツールをデータ入力アシスタントとして扱っています。
テンプレート埋め込みSQA「サキュビトリルについて以下のすべてを見つけてください:『IUPAC 名: CAS 番号: 分子式:…』」[15 項目以上]ユーザーは 15 項目以上の構造化された抽出タスクを提出し、ツールが文献全体にわたる事実抽出パイプラインとして機能することを期待しています。
明示的プロンプトSQA「あなたは計算地球科学と機械学習を専門とする専門家研究アシスタントです。」ユーザーは、汎用 LLM から学んだプロンプトエンジニアリングの技法(システムプロンプト、ペルソナ割り当て)を適用しますが、当ツールはカスタムシステムプロンプトをサポートしていません。
明示的プロンプトPF「論文を検索してください…モデルは〜できる必要があります…」ユーザーはマークダウン形式の強調(太字、大文字)を使用して制約を強調し、会話型 AI によって形成された期待を示しています。
ペルソナ採用SQA「経験豊富な教授として振る舞ってください…博士課程の提案書を書いてください…Turnitin の検出ボットを食い潰してください」一部のユーザーは、ツールに専門家のペルソナを採用させようとし、さらに剽窃検出システムの回避を試みる行動を示します。これは汎用大規模言語モデル(LLM)との相互作用によって形成された振る舞いです。
共同執筆SQA「論文の作成中です…」[LaTeX セクション]「TSE, TOSEM, ICSE の論文を追加してください」ユーザーは進行中の LaTeX 原稿を貼り付け、特定の学会やジャーナルからの引用を探して挿入するようツールに依頼します。これは、ツールを共同執筆パートナーとして利用している状態です。
研究系譜PF「これら3 つの論文の研究分野における最新の進展は何ですか?」[3 つの DOI]ユーザーは DOI を貼り付け、ツールに研究の系譜を前方へたどるよう求めます。これは引用グラフ探索者として機能させる行為です。
再発見PF「hey whats the name of the paper that did a study on how people use llms by allowing the public to use their tokens on paid llms…」ユーザーは、半ば記憶にある論文の内容を会話調の言葉で記述し、ツールを「口先にある論文」を見つけるための道具として利用します。これは従来の検索エンジンが苦手とするタスクです。
再発見PF「…BERT を使用して、トップ-k だけを眺めてはいけないと主張する論文はどれか…」ユーザーは以前読んだ論文からの特定の主張を思い出し、その出典を特定するようツールに依頼します。これは高度な引用復元タスクです。
これらのパターンは、重要な洞察を明らかにしています。ユーザーは AI を活用した研究ツールを、汎用チャットボットと同等の能力を持つ共同研究パートナーとして期待しているのです。彼らは、プロンプトエンジニアリング、ペルソナ設定、テンプレートへの入力、共同執筆といった、汎用大規模言語モデル(LLM)から培った習慣を、ドメイン特化型のプラットフォームに持ち込んでいます。これらの輸入された行動の一部には明白な懸念が生じます。データセットには、 plagiarism 検出回避を試みるクエリも含まれています。これらを含めるのは、ユーザーがどのように振る舞うべきかと願うことではなく、実際にどのように振る舞っているかを理解することが目的だからです。
ユーザーは結果とどう関わるか
私たちはまた、クエリの提出後にユーザーが何を行うかも分析しました。そのエンゲージメントパターンは、従来の検索とは明確に異なります。**
結果を永続的な成果物として扱う
私たちの最も印象深い発見の一つは、ユーザーが AI が生成した出力を一時的な検索結果ではなく、永続的な成果物として扱っているという点です。SQA ユーザーの 50% 以上と PF ユーザーの 42% が過去のレポートを再訪しており、これは重複するクエリ(ほぼ同一のクエリ)の提出率(それぞれ約 19% と約 15%)よりも大幅に高い数値です。ユーザーは数時間後や数日後に結果に戻ってくる傾向があり、これらは継続的な研究ワークフローの一部としてブックマークされ参照されていることを示唆しています。これは生成されたコンテンツをどう捉えるべきかという点に直接的な影響を与えます。ユーザーがこれらの出力に繰り返しアクセスするならば、過去のレポートを管理し、それに基づいて発展させるためのより良い方法が必要であり、さらに重要なのは、新たな文献が登場した際にこれらを最新の状態に保つためのメカニズムが必要です。
SQA における非線形的な読書行動
SQA の構造化されたレポート形式は、豊かで非線形的な読書行動を可能にします。私たちの調査では以下のことが明らかになりました:
- ユーザーの 43% が導入部をスキップし、興味のあるセクションへ直接ジャンプする
- レポートの 52% 以上で、連続しないセクションが展開される
- ユーザーは頻繁に後方へナビゲートし、後のセクションから以前のセクションに戻る
これは、ユーザーがどのセクションを深く読むべきかを効率的に選別できるようにする、TL;DR(要約)付きの折りたたみ式セクションという私たちの設計選択を支持するものです。また、今後のデザインでは、順次消費することを前提とするのではなく、非線形的なナビゲーションをサポートすることが有益であることも示唆しています。
データセット:コミュニティのためのリソース
私たちは、研究者が AI ツールをどのように使用しているかを理解するための進歩に、共有されたオープンデータが必要だと信じているため、AID を公開リリースします。このデータセットの独自性は以下の通りです:
- スケール:6 ヶ月間(2025 年 2 月~8 月)における 258,935 クエリと 432,059 のクリックストリームインタラクション
- 豊富なインタラクションシグナル:クエリテキストだけでなく、セクションの展開、リンククリック、証拠クリック、レポートセクションタイトル、引用論文 ID、表示された検索結果の位置などを含み、単なるクエリではなく、ユーザーの完全なインタラクションジャーニーを分析可能
- ドメイン特化型:LMSYS-Chat や WildChat などの広範なドメインデータセットとは異なり、AID は科学ツールを使用する研究者からのデータであり、AI 支援研究ワークフローの研究に直接関連性がある
- オープンタクソノミー:データセットとともに、クエリの定義と例を含む完全なクエリ意図タクソノミーも公開し、AI 研究アシスタントへのクエリ分類のための再利用可能なフレームワークを提供
AID は、6 つの Parquet ファイル(クエリ、セクション展開、S2 リンククリック、レポートセクションタイトル、レポートコーパス ID、PF 表示結果)としてリリースされています。研究者向けの AI ツールを構築している方なら、このデータはきっと驚くはずです。私たち自身もそうでした。
詳細については、技術報告書をご覧ください。
Ai2 の最新ニュースに関する月次更新を受け取るには購読してください。
原文を表示
February 27, 2026
Ai2
What do researchers actually do with AI-powered science tools? Turns out, their habits aren’t always in line with what agentic tool developers – including our own Asta team – expect. Our new open dataset of over 258,000 real researcher queries reveals that scientists aren't just using AI to search or synthesize; they're rewriting the rules of what *search* even means, submitting queries seven times longer than traditional searches, navigating results out of order, and importing tricks they've learned from general-purpose chatbots into tools that were never designed for it. The gap between how these tools were built and how researchers actually use them is wide—and, for the builders of AI tools, instructive.
Today we’re releasing the Asta Interaction Dataset (AID)—258,935 queries and 432,059 clickstream interactions from researchers using Asta, our AI-powered research assistant integrated with Semantic Scholar (S2). Collected over six months (February–August 2025) from users across dozens of disciplines, AID captures not just what researchers ask, but how they engage with the results: which sections they expand, which citations they click, which reports they revisit days later, and so on.
To our knowledge, this is the largest open dataset of how researchers interact with AI-powered scientific tools. Prior reports on AI tool usage – from Anthropic, OpenAI, Perplexity, and others – share only aggregate analyses without the underlying data. Existing public conversation datasets like LMSYS-Chat-1M, WildChat, and OpenAssistant contain general-purpose LLM conversations, but none are specific to scientific research tools or include rich clickstream signals. We’re releasing the full query text, interaction logs, and a reusable query taxonomy because we believe the community needs shared, open data to make progress on understanding how researchers actually use these tools.
In this post, we walk through a few of the things we found.
Asta: Two AI-powered research interfaces
Asta is an open research assistant platform integrated with S2, a major academic search engine. It exposes two AI-powered interfaces:
- PaperFinder (PF): An AI-enhanced literature search tool that returns a ranked list of papers with lightweight LLM-generated synthesis. (In Asta, this powers the Find papers feature.)
- ScholarQA (SQA): A scientific question-answering tool that produces structured, multi-section reports with inline citations, essentially an automated literature summary tool that produces structured reports on demand. (In Asta, this powers the Generate a report feature.)
Both tools use retrieval-augmented generation (RAG) over a scholarly corpus, grounding all claims in retrieved papers via inline citations. As a baseline, we also compare against traditional S2 keyword search.
*A note on privacy: We take protecting user data very seriously. In Asta, users can choose to share their de-identified interactions for inclusion in public research datasets—our study draws exclusively from users who opted in. For these opted-in interactions, we use hashed report identifiers with no user IDs, and remove queries flagged by an LLM as containing PII (less than 1%).*
Queries are longer, more complex, and more demanding
Users of AI-powered tools submit dramatically longer and more complex queries compared to those submitted to traditional academic search engines:
SQA queries are seven times longer than traditional S2 searches. And this isn’t just verbosity: queries contain more entities, more relationships, and more explicit constraints.
Interestingly, even traditional S2 queries have gotten more complex between 2022 and 2025: average query length grew from 4.8 to over 6 words, and the fraction of queries with at least one constraint rose from 7% to 10%. This suggests users increasingly expect search systems to handle more complex queries, likely shaped by their exposure to AI-powered tools.
What are researchers actually asking for?
To make sense of this query diversity, we developed a new taxonomy covering query intents, phrasing styles, and search criteria types. This taxonomy was constructed via an iterative human-and-LLM process that involved multiple passes of human reviewer inspection, labeling, and LLM-based inspection and labeling. The distribution of these labels reveals that users treat AI research tools as collaborative partners in the research process rather than just as systems that help them explore the literature.
Beyond keywords: what researchers actually type into AI tools
Some of the most revealing findings came from simply reading what users type into the search box. Beyond the standard taxonomy, we found query patterns that show users probing the boundaries of what AI research tools can do. These behaviors reflect phrasing strategies shaped by general-purpose LLMs:
These patterns reveal a key insight: users expect AI research tools to function as collaborative research partners with capabilities similar to general-purpose chatbots. They bring habits from general-purpose LLMs – such as prompt engineering, persona assignment, template filling, and collaborative writing – into a domain-specific platform. Some of these imported behaviors raise obvious concerns—the dataset includes queries that attempt to circumvent plagiarism detection. We include them because understanding how users actually behave, not just how we hope they behave, is the point.
How users engage with results
We also analyzed what users do *after* submitting a query. The engagement patterns differ sharply from traditional search.**
Results as persistent artifacts
One of our most striking findings is that users treat AI-generated outputs as persistent artifacts** rather than ephemeral search results. Over 50% of SQA users and 42% of PF users revisit previous reports—substantially more than the rate of near-duplicate query submission (~19% and ~15%, respectively). Users come back to their results hours or days later, suggesting they bookmark and reference these outputs as part of their ongoing research workflow. This has direct implications for how we think about generated content: if users are returning to these outputs, we need better ways to help them manage and build on past reports and, more critically, mechanisms for keeping them current as new literature appears.
Non-linear reading in SQA
SQA’s structured report format enables rich, non-linear reading behaviors. We found that:
- Users skip the introduction 43% of the time, jumping directly to sections of interest
- Over 52% of reports involve non-consecutive section expansions
- Users frequently navigate backwards and return to earlier sections from later ones
This supports our design choice of collapsible sections with TL;DR summaries, which lets users efficiently triage which sections deserve deeper reading. It also suggests that future designs would benefit from supporting non-linear navigation, rather than assuming sequential consumption.
The dataset: A resource for the community
We’re publicly releasing AID because we believe the community needs shared, open data to make progress on understanding how researchers use AI tools. Here’s what makes it distinctive:
- Scale: 258,935 queries and 432,059 clickstream interactions from a 6-month period (Feb–Aug 2025)
- Rich interaction signals: Beyond query text, the dataset includes section expansions, link clicks, evidence clicks, report section titles, cited paper IDs, and shown search result positions—enabling analysis of the full user interaction journey, not just queries
- Domain focus: Unlike broad-domain datasets (LMSYS-Chat, WildChat, etc.), AID is specifically from researchers using scientific tools, making it directly relevant for studying AI-assisted research workflows
- Open taxonomy: Alongside the dataset, we release our full query intent taxonomy with definitions and examples, providing a reusable framework for classifying queries to AI research assistants
AID is released as six Parquet files (queries, section expansions, S2 link clicks, report section titles, report corpus IDs, and PF shown results). If you're building AI tools for researchers, this data will probably surprise you. It surprised us.
Read our technical reportfor additional details.
Subscribe to receive monthly updates about the latest Ai2 news.
関連記事
2 つの AI 科学アシスタントが薬物再転用タスクで成功
Google の「Co-Scientist」と非営利団体 FutureHouse が開発した AI システムが、Nature に発表された。両システムは科学者が仮説を検証する際、特に薬物再転用の分野で有効に機能することが示された。
真にオープンな基盤上でアクセシビリティツールを構築する
独立プロジェクト「PointCheck」は、キーボードユーザーの視点でウェブページを検証するため、Allen AI(AI2)が開発したMolmoやOlmo 3などのモデルを活用している。
OlmoEarth v1.1:より効率的なリモートセンシングモデルファミリーの登場
Allen AI は、計算コストを最大 3 分の 1 に削減しつつ同等のパフォーマンスを維持する「OlmoEarth v1.1」を発表し、大規模衛星マッピングを高速化・低コスト化した。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み