AIを回答マシンとして10分使用するだけで問題解決能力が低下、新研究が発見

新研究によると、AIを「回答機」として10分間使用するだけで、問題解決スキル（problem-solving skills）が測定可能なレベルで低下することが判明 米英の研究者による新研究によると、AIアシスタントと10〜15分間接するだけで、その後の無補助タスクにおける問題解決能力（problem-solving ability）と持続力（persistence）が測定可能なレベルで低下することが示された。 複数の米英大学チームによるこの研究は、AI支援が即時のパフォーマンスを向上させる一方で代償を伴うことを示している。すなわち、AIの支援が取り除かれた後、ユーザーは最初から一人で同じタスクに取り組んだ人々よりも低いパフォーマンスを示す。また、あきらめる頻度も高くなる。 研究者らは、これらの効果に関する以前の証拠は主にアンケート調査や小規模なサンプルから得られていたと指摘する。これは、制御実験から導き出された初の大規模な因果関係を示す証拠である。 分数の問題が示す「補助具効果」（crutch effect） 第1の実験では、参加者は単純な1ステップの計算から複雑な3ステップのタスクまで、15問の分数問題（fraction problems）に取り組んだ。一方のグループはサイドバーにGPT-5を利用でき、各問題とその解答が事前に読み込まれていた。 つまり、参加者はほぼ努力せずに正解を得られた。単に「Answer?」と入力するだけで十分だった。対照群（control group）はツールを一切使用せずに作業を行った。12問終了後、AIが警告なしで削除され、全員が3問の同一テスト問題を一人で解いた。 AIが利用可能だった間、AIグループ（オレンジ色）はほぼすべての分数問題を正確に解いた。しかし最終3問のテスト問題でAIが削除されると、解答率（solve rate）は対照群（緑色）を下回り、スキップ率（skip rate）が急上昇した。| 画像: Liu et al. そのテスト問題において、以前のAIユーザーは対照群よりも有意に少ない正解数だった。また、問題をスキップする頻度もほぼ2倍になった。誤答に対するペナルティがなく、報酬もパフォーマンスに連動していなかったため、研究者らはスキップ行動を持続力（persistence）と動機付けの直接的な指標として扱った。 第2の実験がパターンを確認 追試実験は方法論的な欠陥を修正した。第1回の実験では、AIグループの基礎能力が低い参加者がAIを通じて正解を提出できたため、対照群と同じ基準で除外されなかった。 今回は、単純な分数問題による事前テスト（pre-test）が追加され、対照群もAIグループのインターフェースに合わせるため、事前テストの解答が記載されたサイドバーを与えられた。 実験2はより厳密な方法論で同様の効果を再現した。AIグループは学習フェーズでは再び首位を走ったが、無補助テスト（unassisted test）では後れを取った。平均的なスキップ率はほぼ同等だった。| 画像: Liu et al. 結果は支持された。AIグループは無補助テストにおいて再び対照群を下回った。高いスキップ率も同じ方向を指していたが、全体として統計学的有意差には達しなかった。研究者らは、実際にAIをどのように使用したかの違いを可能性のある理由として挙げている。 「直接回答」ユーザーが最大の代償を支払う AIユーザーの約61％が、主にアシスタントに直接解答を求めていると回答した。別の4分の1はヒントや解説のために使用し、残りは全く使用しなかった。事前テストでは、これらのグループは解答率とスキップ率の両方で同等のパフォーマンスを示した。基礎能力（baseline ability）と動機付けも比較可能だった。 使用スタイル別に分類：すべてのグループは当初同等の水準からスタートした（a）。無補助テストでは、「直接回答」ユーザーが最も悪く、最も頻繁にスキップした一方、AIを完全に無視した人々が最高解答率を示した（b）。「直接回答」グループのみが、自身の事前テスト結果よりも低いパフォーマンスとなった（c）。| 画像: Liu et al. AIが削除された後、結果は急変した。直接解答に依存していた人々が最も悪く、AIを完全に無視した参加者は最高解答率を示し、対照群よりも高かった。直接回答ユーザーは自身の事前テストスコアに対して低下した一方、他のグループは横ばいまたは向上した。このデータは、負の影響が「思考を外部委託する」ユーザーに集中していることを示唆している。 読解力（reading comprehension）でも同様のパターンが確認 この効果が数学に限定されるかどうかを確認するため、研究者らは米SAT（Scholastic Assessment Test）の読解問題を用いて同じ実験デザインを実施した。ここでは、学習フェーズとテストフェーズの文脈切り替えを反映させるため、対照群に一般的な試験のコツが記載されたサイドバーを与えた。チームは、文章をそれほどの速さで読めないため、5秒以内に出された回答もスキップとしてカウントした。 実験3は、このデザインをSATの読解問題に適用した。パターンが繰り返される：AIが削除された後、AIグループの解答率は対照群を大きく下回り、スキップ頻度も高くなる。| 画像: Liu et al. 結果は数学実験と一致した。AIグループは無補助テストで正解数が少なく、有意に多くのスキップを示した。研究者らは、持続力（persistence）の低下は、批判的思考（critical thinking）に密接に関連するタスクであっても、AI支援型問題解決の広範な副作用であると指摘している。 2つのメカニズム、1つの構造的課題 本研究は、持続力の喪失について2つの説明を提示している。第一に、AIはタスクの難易度の基準点をリセットする。支援なしで作業すると、あらゆる利便性に慣れるのと同じく、より困難に感じられる。このメカニズムは自己強化型である：あらゆるショートカットは、次回自分で作業を行う perceived cost（知覚されるコスト）を高める。 第二に、ユーザーは知識を構築し、自身の能力に対する現実的な感覚を養う「生産的な苦闘（productive struggle）」の機会を逃す。 研究者らは、この知見を技能の漸進的喪失に関する広範な議論と結びつけている。即時の有用性で最適化されたAIシステムは、ユーザーの長期的な能力を損なう可能性がある。分数や読解力は委譲しやすいものに見えるかもしれないが、それらは代数や批判的思考（critical thinking）といった高度なスキルの前提条件であると指摘する。 学術的リソースが限られた学生ほど特にリスクが高い。わずか10分の使用で測定可能な効果が生じるのであれば、研究者は警告する、その影響は数ヶ月や数年をかけて複合的に蓄積し、回復が困難になる可能性がある。 研究者らは、Socratic AIや使用制限のようなユーザー側の修正は単なる「応急処置（band-aids）」に過ぎないと主張する。必要なのは、これらのシステムの構築方法を見直すことであり、短期的なユーザー満足度から離れ、自律性を育み、時には支援を控える設計へと向けるべきである。 AIの認知コストに関する証拠が蓄積 以前の研究も同様の方向を指しているが、手法は弱かった。Swiss Business Schoolによる研究は、AI使用と批判的思考（critical thinking）の間に強い負の相関があることを発見し、17〜25歳の参加者にその傾向が最も顕著だった。高等教育は保護因子として作用した：学歴が高い人々はAI生成情報をより頻繁に疑問視し、より深い分析を行った。 Microsoft ResearchとCarnegie Mellonの共同研究は、「自動化の皮肉（irony of automation）」を記述している。定型業務を処理することで、AIツールはユーザーが「認知筋力（cognitive muscles）」を鍛える機会を奪う。定型または低リスクのタスクでは、ユーザーは単にAIにデフォルトで依存する。 主にジュニアのソフトウェア開発者52名を対象としたAnthropicの研究も同様に、AI支援が新しいプログラミングスキルの習得を損なう可能性を示した。参加者は見慣れないTrioライブラリを使用して2つのタスクを解決するよう求められた。一方のグループはGPT-4oベースのアシスタントにアクセス可能であり、対照群はドキュメントとウェブ検索のみで作業を行った。 追試の知識テストにおいて、AIグループは17％低いスコアだった。再び重要なのはツールの使用方法である：解説を求めた人々は、業務を丸投げした人々よりもよく学んだ。 使用経験も重要である。別のAnthropic研究では、熟練したClaudeユーザーは同一タスクにおいて新規ユーザーよりも約4ポイント高い成功率を記録した。彼らは単にコマンドを発行するのではなく、モデルと反復的に作業を行った。 他の研究では、AIが個人およびチームのパフォーマンスを向上させることが示されている。しかし、多くの企業は依然として、それらの孤立した生産性向上を実際の効率改善や収益成長に変えることに多くの理由から苦戦している。

背景や根拠まで確認しますか？

調べる

選ぶ

サイト