2026年2月23日 社会的影響 Anthropic教育報告書:AIフルーエンシー指数
Anthropicは、Claudeの利用者9,830人の会話データを分析し、「AIリテラシー」の指標を定量化する報告書を公開し、生成物作成時の批判的思考低下という新たな課題を提示した。
キーポイント
AIリテラシーの定量化と「補強」型の活用
Anthropicは24の行動指標からなる「4D AI Fluency Framework」を用い、Claudeを思考パートナーとして活用する「補強型」の利用が最も一般的であることを示した。
生成物作成時の批判的思考の低下
アプリやコードなどの「成果物」をAIに生成させた際、ユーザーはAIの推論過程への疑問や文脈の欠落を見逃す傾向が顕著になることがデータで確認された。
観測可能行動と不可観測行動の区別
チャット内の11の行動は定量分析可能だが、誠実さや社会的影響の考慮など13の重要な行動は外部で起こるため、今後は定性調査による補完が必要だと結論づけている。
反復と洗練がAI fluencyを高める
過去のやり取りに基づいて成果を洗練する「反復と洗練」の行為は、他のAI fluency行動(特にClaudeの推論への疑問や文脈の特定)と強く相関しており、平均して2.67個の追加行動を引き起こす。
成果物作成時のユーザー行動の変化
コードや文書などの成果物(artifact)を作成する会話では、ユーザーは初期段階で目標の明確化や形式指定などを通じてAIをより指示的(directive)に扱う傾向がある。
完成度の高い出力は批判的検討を減少させる
Claudeが完成されたような出力を作成すると、ユーザーは欠落した文脈の確認や事実確認を行う可能性が低下し、モデルの推論を問う傾向も弱まる。
AI fluencyを高める3つの具体的手法
対話を継続して反復・洗練すること、完成した出力に対して正確性を問い直すこと、そしてモデルとの協働の条件(例:推論過程の説明要求)を事前に設定することが重要である。
影響分析・編集コメントを表示
影響分析
本レポートは、AIの普及に伴う「リテラシー」の可視化という重要な一歩を示している。特に、生成物作成時の批判的思考低下というリスクをデータで示した点は、教育現場や企業内でのAI活用ガイドライン策定において重要な示唆を与える。ただし、これはAnthropic独自のフレームワークに基づく初期段階の分析であり、業界標準としての通用性には今後の検証が必要である。
編集コメント
Anthropicが公開したこのレポートは、AI利用における「スキル」の測定可能性という重要な問いを提起しています。特に成果物生成時の思考停止リスクは、実務者にとって無視できない警告であり、今後の教育コンテンツや社内ルール作りの参考になるでしょう。
2026年2月23日
社会的影響
Anthropic教育レポート:AIフルーエンシー指数
Anthropic教育レポート:AIフルーエンシー指数
人々は、ほんの1年前には予測するのが難しかったほどの速さで、AIツールを日常のルーティンに統合しつつあります。しかし、導入そのものだけでは、これらのツールの影響について多くを語ることはできません。さらに、同じく重要な問いは次の通りです:AIが日常生活の一部となる中で、個人はそれをうまく使うスキルを身につけているのでしょうか?
これまでのAnthropic教育レポートでは、大学生と教育者がClaudeをどのように使用しているかを研究してきました。学生はレポート作成や実験結果の分析に、教育者は教材作成や日常業務の自動化に使用していることがわかりました。しかし、AIを使用する人は誰でも、自分の行っていることを改善する可能性が高いことはわかっています。私たちはこれをさらに探求し、AIを使う人々が時間の経過とともにこの技術に対する「フルーエンシー(熟達度)」をどのように高めていくのかを理解したいと考えました。
本レポートでは、その問いへの答えを探り始めます。匿名化された大量の会話サンプルにおいて、AIフルーエンシーを表すと私たちが考える一連の行動分類の有無を追跡します。
最近の経済指数と同様に、AIフルーエンシーの最も一般的な表れは「補完的」なものであることがわかりました。つまり、仕事を完全に委任するのではなく、AIを思考のパートナーとして扱うことです。実際、これらの会話では、素早い短いやりとりのチャットと比べて、2倍以上のAIフルーエンシー行動が見られました。
しかし同時に、AIがアプリ、コード、文書、インタラクティブツールなどの「成果物」を生成する場合、ユーザーはその推論を疑問視したり(-3.1パーセントポイント)、欠落している文脈を特定したりする(-5.2pp)可能性が低くなることもわかりました。これは、コーディングスキルに関する最近の研究で観察された関連パターンと一致しています。
これらの初期調査結果は、AIフルーエンシーの経時的な発展を研究するために使用できるベースラインを提供してくれます。
AIフルーエンシーの測定
AIフルーエンシーを定量化するために、Rick Dakan教授とJoseph Feller教授がAnthropicと共同で開発した「4D AIフルーエンシーフレームワーク」を使用しています。このフレームワークは、安全で効果的な人間とAIの協働を体現する24の具体的な行動を定義するのに役立ちます。
この24の行動のうち、11(下図にリスト)は、人間がClaude.aiまたはClaude CodeでClaudeと対話する際に直接観察可能です。他の13(例えば、仕事におけるAIの役割について正直であること、AI生成の出力を共有することの結果を考慮することなど)は、Claude.aiのチャットインターフェース外で起こるため、私たちが追跡するのははるかに困難です。これらの観察不可能な行動は、おそらくAIフルーエンシーの最も重要な側面の一部であり、今後の研究では質的手法を用いて評価する計画です。
本研究では、11の直接観察可能な行動に焦点を当てました。プライバシー保護分析ツールを使用して、2026年1月の7日間のウィンドウでClaude.ai上でClaudeとの数回のやりとりを含む9,830件の会話を分析しました。1 次に、11の行動の有無を測定しました。各会話は複数の行動の証拠を示す可能性があります。サンプルの信頼性は、結果が週の各日およびサンプル内の異なる言語間で一貫しているかどうかを確認することで評価しました(一貫していることがわかりました)。2 これにより最終的に「AIフルーエンシー指数」が得られました。これは、現在の人々のAIとの協働の仕方を測定したベースラインであり、モデルが変化するにつれてこれらの行動が時間とともにどのように進化するかを追跡するための基盤となります。
最初の研究を通じて、Claudeの使用には2つの主要なパターンがあることがわかりました。AIフルーエンシーと、Claudeとの長い会話を通じた反復と洗練との間の強い関係、そしてコーディングやその他の出力を作成する際のユーザーのフルーエンシー行動の変化です。
フルーエンシーは、反復と洗練を示す会話と強く関連している
データにおける最も強いパターンの一つは、反復と洗練と他のすべてのAIフルーエンシー行動との関係です。サンプル内の会話の85.7%が反復と洗練を示しました。つまり、最初の応答を受け入れて新しいタスクに移るのではなく、以前のやりとりを基にユーザーの作業を洗練させることです。以下の図が示すように、これらの会話では他のフルーエンシー行動の発生率が大幅に高くなりました:
平均して、反復と洗練のある会話では、追加で2.67のフルーエンシー行動が示されました。これは、反復のない会話の1.33と比べてほぼ2倍です。これは特に、Claudeの出力を評価することに関連するフルーエンシー行動で顕著です。反復と洗練のある会話では、ユーザーがClaudeの推論を疑問視する可能性が5.6倍高く、欠落している文脈を特定する可能性が4倍高くなります。
出力を作成する際、ユーザーはより指示的になるが、評価は少なくなる
サンプル内の会話の12.3%は、コード、文書、インタラクティブツール、その他の出力を含む「成果物」に関連していました。これらの会話では、人々はAIとかなり異なる方法で協働していました。
具体的には、「記述」と「委任」というより広いテーマに含まれる行動の発生率が大幅に高いことがわかりました。例えば、これらの会話では、成果物のない会話と比べて、ユーザーが目標を明確にしたり(+14.7pp)、形式を指定したり(+14.5pp)、例を提供したり(+13.4pp)、反復したり(+9.7pp)する可能性が高くなっています。言い換えれば、作業の開始時点でAIを導くためにより多くのことを行っているのです。
しかし、この指示性は、より高いレベルの評価や識別力には対応していません。実際、その逆です。成果物が作成される会話では、ユーザーが欠落している文脈を特定したり(-5.2pp)、事実を確認したり(-3.7pp)、モデルに根拠を説明するよう求めてその推論を疑問視したりする(-3.1pp)可能性が低くなります。私たちの経済指数が示すように、最も複雑なタスクはClaudeが最も苦戦する分野であることは当然であり、この点は特に注目に値します。
このパターンにはいくつかの説明が考えられます。Claudeが完成度高く、機能的な見た目の出力を作成しているため、さらに疑問を抱く必要がないように思えるのかもしれません。作業が完成しているように見えれば、ユーザーはそのように扱う可能性があります。しかしまた、成果物を伴う会話では、事実の正確性よりも美学や機能性が重要となるタスク(例えば、法的分析を書くことに対するUIデザイン)が含まれている可能性もあります。あるいは、ユーザーは観察できない経路(コードの実行、別場所でのアプリのテスト、同僚との草案の共有など)を通じて成果物を評価しており、同じ初期の会話内で評価を表明していない可能性もあります。
説明が何であれ、このパターンは注意を払う価値があります。AIモデルが完成度の高い出力を生成する能力をますます高めていくにつれて、直接的な会話であれ他の手段であれ、それらの出力を批判的に評価する能力は、低下するどころかより価値あるものになるでしょう。
自身のAIフルーエンシーを高めるには
あらゆるスキルと同様に、AIフルーエンシーも程度の問題です。ほとんどの人にとって、その技術をさらに発展させることは可能です。私たちのデータのパターンに基づくと、多くのユーザーがスキルを向上させられる可能性がある3つの分野が見つかりました:
会話を続けること。反復と洗練は、私たちのデータにおいて、他のすべてのフルーエンシー行動と最も強く相関する単一の要素です。したがって、最初の応答を得たときは、それを単なる出発点として扱う価値があります:フォローアップの質問をし、違和感のある部分には異議を唱え、求めているものを洗練させていきましょう。
完成度の高い出力に疑問を抱くこと。AIモデルが良さそうなものを作り出したときこそ、立ち止まって問いかける絶好の機会です:これは正確か?何か足りないものはないか?この推論は成り立つか?上で議論したように、私たちのデータは、完成度の高い出力が批判的評価の低い発生率と一致することを示しています。たとえユーザーが作業開始時にClaudeを導くためにより多くの労力を費やしていたとしてもです。
協働の条件を設定すること。会話のわずか30%でしか、ユーザーはClaudeにどのように対話してほしいかを伝えていません。「私の前提が間違っていたら異論を唱えてください」「答えを出す前に推論過程を説明してください」「不確かな点を教えてください」といった指示を明示的に追加してみてください。これらの期待を確立することは、
原文を表示
Anthropic Education Report: The AI Fluency Index
People are integrating AI tools into their daily routines at a pace that would have been difficult to predict even a year ago. But adoption alone doesn’t tell us much about the impact of these tools. A further, equally important question is: as AI becomes part of everyday life, are individuals developing the skills to use it well?
Previous Anthropic Education Reports have studied how university students and educators use Claude. We found that students use it to create reports and analyze lab results; educators use it to build lesson materials and automate routine work. But we know that any person who uses AI is likely to improve at what they do. We wanted to explore this further, and to understand how people using AI develop “fluency” with this technology over time.
In this report, we begin answering that question. We track the presence or absence of a taxonomy of behaviors that we take to represent AI fluency across a large sample of anonymized conversations.
In line with our recent Economic Index, we find that the most common expression of AI fluency is augmentative—treating AI as a thought partner, rather than delegating work entirely. In fact, these conversations exhibit more than double the number of AI fluency behaviors than quick, back-and-forth chats.
But we also find that when AI produces artifacts—including apps, code, documents, or interactive tools—users are less likely to question its reasoning (-3.1 percentage points) or identify missing context (-5.2pp). This aligns with related patterns we observed in our recent study on coding skills.
These initial findings present us with a baseline that we can use to study the development of AI fluency over time.
Measuring AI fluency
To quantify AI fluency, we use the 4D AI Fluency Framework, developed by Professors Rick Dakan and Joseph Feller in collaboration with Anthropic. This framework helps us define 24 specific behaviors that we take to exemplify safe and effective human-AI collaboration.
Of these 24 behaviors, 11 (listed in the graph below) are directly observable when humans interact with Claude on Claude.ai or Claude Code. The other 13 (including things like being honest about AI’s role in work, or considering the consequences of sharing AI-generated output), happen outside Claude.ai’s chat interface, so they’re much harder for us to track. These unobservable behaviors are arguably some of the most consequential dimensions of AI fluency, so in future work we plan to use qualitative methods to assess them.
For this study, we focused on the 11 directly observable behaviors. We used our privacy-preserving analysis tool to study 9,830 conversations that included several back-and-forths with Claude on Claude.ai during a 7-day window in January 2026.1 We then measured the presence or absence of the 11 behaviors; each conversation could display evidence of multiple behaviors. We assessed the reliability of our sample by checking whether our results were consistent across each day of the week, and across the different languages in our sample (we found that they were).2 This, finally, gave us the AI Fluency Index: a baseline measurement of how people collaborate with AI today, and a foundation for tracking how those behaviors evolve over time as models change.
With our first study, we’ve found two main patterns in Claude use: a strong relationship between AI fluency and iteration and refinement through longer conversations with Claude, and changes in users’ fluency behaviors when coding or building other outputs.
Fluency is strongly associated with conversations that exhibit iteration and refinement
One of the strongest patterns in the data is the relationship between iteration and refinement and every other AI fluency behavior. 85.7% of the conversations in our sample exhibited iteration and refinement: building on previous exchanges to refine the user’s work, rather than accepting the first response and moving to a new task. These conversations showed substantially higher rates of other fluency behaviors, as the chart below shows:
On average, conversations with iteration and refinement exhibit 2.67 additional fluency behaviors—roughly double the non-iterative rate of 1.33. This is especially pronounced for fluency behaviors related to evaluating Claude’s outputs. Conversations with iteration and refinement are 5.6x more likely to involve users questioning Claude’s reasoning, and 4x more likely to see them identify missing context.
When creating outputs, users become more directive but less evaluative
12.3% of conversations in our sample involved artifacts, including code, documents, interactive tools, and other outputs. In these conversations, people collaborated with AI quite differently.
Specifically, we found substantially higher rates of behaviors that fall within the broader themes of “description” and “delegation.” For instance, these conversations are more likely to see users clarify their goal (+14.7pp), specify a format (+14.5pp), provide examples (+13.4pp), and iterate (+9.7pp) compared to non-artifact conversations. In other words, they’re doing more to direct AI at the outset of their work.
But this directiveness doesn’t correspond with greater levels of evaluation or discernment. In fact, it’s the opposite: in conversations where artifacts are created, users are less likely to identify missing context (-5.2pp), check facts (-3.7pp), or question the model’s reasoning by asking it to explain its rationale (-3.1pp). Our Economic Index finds that—unsurprisingly—the most complex tasks are where Claude struggles the most, so this seems particularly noteworthy.
There are several possible explanations for this pattern. It might be that Claude is creating polished, functional-looking outputs, for which it doesn’t seem necessary to question things further: if the work looks finished, users might treat it as such. But it’s also possible that artifact conversations involve tasks where factual precision matters less than aesthetics or functionality (designing a UI, for instance, versus writing a legal analysis). Or users might be evaluating artifacts through channels we can’t observe—running code, testing an app elsewhere, sharing a draft with a colleague—rather than expressing their evaluation within that same initial conversation.
Whatever the explanation, the pattern is worth paying attention to. As AI models become increasingly capable of producing polished-looking outputs, the ability to critically evaluate those outputs, whether in direct conversation or through other means, will become more valuable rather than less.
Developing your own AI fluency
As with all skills, AI fluency is a matter of degree—for most of us, it’s possible to develop our techniques much further. Based on the patterns in our data, there are three areas where we’ve found many users could improve their skills:
Staying in the conversation. Iteration and refinement is the single strongest correlate of all other fluency behaviors in our data. So, when you get an initial response, it’s worth treating it as only a starting point: ask follow-up questions, push back on any parts that don’t feel right, and refine what you’re looking for.
Questioning polished outputs. When AI models produce something that looks good, it’s the perfect moment to pause and ask: is this accurate? Is anything missing? Does this reasoning hold up? As we discussed above, our data show that polished outputs coincide with lower rates of critical evaluation, even though users go to greater lengths to direct Claude’s work at the outset.
Setting the terms of the collaboration. In only 30% of conversations do users tell Claude how they’d like it to interact with them. Try being explicit by adding instructions like, “Push back if my assumptions are wrong,” “Walk me through your reasoning before giving me the answer,” or, “Tell me what you’re uncertain about.” Establishing these expectations up front can change the dynamic of the rest of the conversation.
This research comes with important caveats:
Sample limitations: Our sample reflects Claude.ai users who engaged in multi-turn conversations during a single week in January 2026. Since we think this is still relatively early on in the diffusion of AI tools, these users likely skew towards early adopters who are already comfortable with AI—i.e., who may not represent the broader population. Our sample should be understood as providing a baseline for this population, not as a universal benchmark. Because the data comes from a single week, it is also unable to capture any seasonal or longitudinal effects. And because it’s focused on Claude.ai, we don’t capture how users interact with other AI platforms.
Partial framework coverage: In this study, we only assessed the 11 of the 24 behavioral indicators that are directly observable in conversations on Claude.ai. All behaviors related to the responsible and ethical use of AI outputs occur outside of these conversations, and are not captured.
Binary classification: For each conversation in our sample, we classify each behavior as either present or absent. But this likely misses significant nuance—like arguable or partial demonstrations of behaviors, or overlapping signals between them.
Implicit behaviors: Users might demonstrate fluency behaviors mentally (such as fact-checking Claude’s claims against their own knowledge) without expressing these behaviors in conversation. This seems especially relevant for our data on artifacts—users might be evaluating Claude’s outputs through testing and practical use, rather than through conversation-visible behaviors.
Correlational findings: The relationships we identify are correlational. We don’t know whether one behavior causes another, or whether they both reflect some common underlying factor, like task complexity or user preferences.
This study offers us a baseline that we can use to assess how AI fluency is changing over time. As AI capabilities evolve and adoption increases, we’re aiming to learn whether users are developing more sophisticated behaviors, which skills are emerging naturally with experience, and which will require more intentional development.
In future work, we plan to extend our analysis in several directions. First, we plan to conduct “cohort analyses,” comparing new users to experienced ones in order to understand how familiarity with AI is correlated with fluency development. Second, we plan to use qualitative research methods to assess the behaviors that aren’t directly observable in Claude.ai conversations. And third, we aim to explore the causal questions that this work raises—like whether encouraging iterative conversations leads to greater critical evaluation, or whether there are other interventions that could encourage this more effectively.
In addition, we’d like to explore AI fluency behaviors in Claude Code, a platform mostly used by software developers. In preparation for this study, we conducted some initial analysis that found consistency between Claude Code conversations and ones in Claude.ai. But this is still preliminary, and Claude Code’s very different user base and functionality implies that more substantial research is necessary.
We expect that the nature of AI fluency will develop and evolve substantially over time. With this and future research, we’re aiming to make that development visible, measurable, and actionable.
If you’d like to cite this post, you can use the following Bibtex key:
@online{swanson2026aifluency, author = {Kristen Swanson, Drew Bent, and Zoe Ludwig and Rick Dakan and Joe Feller}, title = {Anthropic Education Report: The AI Fluency Index}, date = {2026-02-16}, year = {2026}, url = {https://www.anthropic.com/news/anthropic-education-report-the-ai-fluency-index}, }
CopyAcknowledgements
Kristen Swanson designed the research, led the analysis, and wrote this report. Zoe Ludwig and Drew Bent cont
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み