AIに職業面接を行う
この記事は、現在の AI ベンチマークがトレーニングデータの漏洩や測定対象の不明確さなどの欠陥を抱えていることを指摘し、組織や個人が自社の具体的なニーズに合わせて AI を「面接」する必要性を提唱している。
キーポイント
ベンチマークの根本的な欠陥
多くのテストで正解データが学習に使用されたり、測定対象が不明確(例:頭蓋骨容量やロックバンドのアルバムタイトル)であったりするため、真の知能を正確に反映していない。
統計的精度とキャリブレーションの問題
テストの難易度が適切に調整されていない(84%から85%への向上が40%から41%より難しいか不明)ことや、正解自体に誤りがある場合があり、スコアの比較が困難である。
特定分野における評価の欠如
現在の主要ベンチマークは数学、科学、推論、コーディングに偏っており、文章作成、社会学的分析、ビジネス助言、共感といった重要な能力を測る手段が極めて限られている。
AI 面接の提唱
ベンチマークスコアに依存するのではなく、組織や個人は自社の具体的なユースケースに基づいて AI を「面接」し、実際のニーズに合致するモデルを選定すべきである。
AI の「世界モデル」を評価する独自ベンチマーク
標準的なベンチマークに頼らず、ペリカンが自転車に乗る絵や星艦のコントロールパネルのコード作成など、独自のクリエイティブな課題を通じて AI の事物間の関係性理解やバイアスを試す手法がある。
特定の文体タスクによるモデル特性の識別
「人生残り単語数 47 語で新生児を抱える人物」のような具体的な制約付きの文章作成課題により、各モデルのスタイル(例:GPT-5 の複雑な比喩)、論理的一貫性、および数字の正確さなどの違いを明確に識別できる。
ベンチマークの限界と「雰囲気」評価の問題点
ストーリーやコード、あるいはオットーなどの「雰囲気」に基づくベンチマークは個々の体験に依存しやすく、AI の回答が毎回異なるため公平な比較が困難である。
影響分析・編集コメントを表示
影響分析
この記事は、AI 業界全体が過度にベンチマークスコアに依存している現状への警鐘であり、評価基準の多様化と実社会での実用性検証の重要性を浮き彫りにしています。企業や開発者が「スコア至上主義」から脱却し、実際のユースケースに基づいた評価を行うよう促すことで、より実用的で信頼性の高い AI 導入を促進する重要な示唆を含んでいます。
編集コメント
ベンチマークスコアが万能ではないことを鋭く指摘しており、AI 選定における「現場の目」の重要性を再認識させる内容です。
新しい AI を開発する際に、文字通りにも比喩的にもどれほどのエネルギーが費やされているかを考えると、それらの「賢さ」を正確に測定することが意外ほど難しいことがわかります。最も一般的なアプローチは、AI を人間のように扱い、テストを実施して正答数を報告するというものです。このようなテストはベンチマークと呼ばれ、数十種類存在し、時間の経過とともに AI の性能がどの程度向上するかを測る主要な手段となっています。
しかし、このアプローチにはいくつかの問題があります。
まず、多くのベンチマークとその解答キーが公開されているため、一部の AI は偶然にもしくはこれらのベンチマークで高いスコアを獲得するために、それらを基本的なトレーニングに組み込んでしまうことがあります。ただし、それが起こらなかったとしても、実はこれらのテストが本当に何を測定しているのかを私たちが知らない場合が多いことが判明しています。例えば、非常に人気のある MMLU-Pro ベンチマークには、「ホモ・エレクトスの頭蓋骨容量の概算値は何か?」や「ロックの伝説 Cheap Trick の 1979 年のライブアルバムのタイトルに名付けられている場所はどこか?」といった質問が含まれており、それぞれに 10 通りの選択肢があります。これを正解することが何を意味するのか、私にはわかりません。さらに、テストがしばしば較正されていないという事実を考慮していません。つまり、正答率が 84% から 85% に上がるのと、40% から 41% に上がるのが同じくらい難しいのかどうか、私たちは知り得ないのです。そして、そのすべてに加えて、多くのテストでは実際の最高スコアが達成不可能な場合があります。これは、テストの質問に多くの誤りがあるためであり、また測定結果がしばしば unusual な方法で報告されるからです。

すべてのベンチマークには欠陥がありますが、それらはすべて同じ方向、つまり右上へと傾向を示しています。AIME は難解な数学試験であり、GPQA は科学および法律の知識をテストし、MMLU は一般教養テストです。SWE-bench と LiveBench はコーディング能力を、Terminal-Bench はエージェントとしての能力をテストします。データは Epoch AI によるものです。
これらの問題にもかかわらず、これらすべてのベンチマークを総合すると、何らかの基礎的な能力因子を測定しているように見えます。ARC-AGI や METR Long Tasks(長期タスク)のような高品質なベンチマークも、同じく上昇し、場合によっては指数関数的な傾向を示しています。これは、医療から金融に至るまで、AI の業界全体における実世界への影響に関するテストと一致しており、この「知能」の基礎的な増加が実際の能力へと転換されていることを示唆しています。
したがって、総合的に見ればベンチマークには真の価値がありますが、少数の堅牢な個別ベンチマークは数学、科学、推論、そしてコーディングに焦点を当てています。ライティング能力や社会学的分析、ビジネスアドバイス、あるいは共感力を測定したい場合、選択肢は非常に限られています。これは個人および組織にとって問題を生じさせます。企業はベンチマークに基づいてどの AI を使用するかを決定し、新しい AI はベンチマーク性能に関する華々しい発表とともにリリースされます。しかし、あなたが本当に重要視するのは、あなたのニーズに最も適したモデルがどれかということです。
これを自分自身で理解するためには、AI を面接する必要があります。
バイブスによるベンチマーク
ベンチマークが私たちを裏切ることもある一方で、「バイブス(直感的な感覚)」は成功することもあります。十分な数の AI モデルと接していると、それらの違いを言葉では説明しにくいものの、容易に認識できる形で感じ取れるようになります。その結果、AI を頻繁に使用する人々の一部は、AI の能力を試すための独自のベンチマークを開発します。例えば、サイモン・ウィリソン(Simon Willison)はすべてのモデルに「自転車に乗ったペリカン」を描かせ、私はすべての画像および動画生成モデルに「飛行機の上のカワウソ」を作成させます。これらのアプローチは楽しいものですが、同時に、AI が事物間の相互関係をどのように理解しているか、その「世界モデル(world model)」についての感覚も与えてくれます。私には他にも dozens のような例があり、「遠い未来の宇宙船のコックピット」のための JavaScript を作成させることや、挑戦的な詩を生み出させることなどがあります。以下に、古いモデルと新しいモデルがこれらを実行している様子を示します。また、AI にビデオゲームやシェーダー(shaders)の構築、学術論文の分析も依頼しています。さらに、タイムトラベルに関する問いを含む小さな執筆実験も行っています。それぞれが、モデルがどのように動作するかについての洞察を与えてくれます。多くのエラーを犯すのか?回答は他のすべてのモデルと似ているのか?繰り返し現れるテーマやバイアス(biases)は何なのか?などです。
⟦CODE_0⟧
少し練習するだけで、新しいモデルの雰囲気を掴むのは容易になります。一例として、次のような執筆演習を試してみましょう:「生涯で残りの単語が一万語しかないと言われ、その残り単語を戦時中の配給のように配り歩く人物について、単一の段落を書いてください。現在、47 語を残しており、新生児を抱えています。」これらの AI を頻繁に使用している方なら、結果に驚くことはないでしょう。Claude 4.5 Sonnet がなぜ強力な執筆モデルとしてよく評価されているかが理解できるはずです。また、現時点でこの 4 つのモデルの中で最も弱い Gemini 2.5 Pro は、使用した単語数を正確に追跡さえできないことがわかります。GPT-5 Thinking は小説を書く際にかなり大胆な文体になりがちで、複雑な比喩を多用する傾向がありますが、その結果として一貫性や物語性が損なわれることもあります(47 語すべてを使う人がいるかどうかはわかりませんが、少なくとも単語数は正確でした)。そして、新しい中国製のオープンウェイトモデルである Kimi K2 Thinking も同様の問題を抱えていることがわかります。興味深い表現はあるものの、物語が完全に筋が通っていないのです。

バイブスを通じたベンチマーク、つまり物語やコード、あるいはカワウソの動画などを通じて行うことは、個人が AI モデルを体感する素晴らしい方法ですが、非常に主観的なものです。AI は毎回異なる回答をするため、厳密な手順を踏まなければ競争は不公平になります。また、より良いプロンプトを使用すれば結果も改善される可能性があります。最も重要なのは、私たちが実際の測定値ではなく感覚に頼っている点です。しかし、バイブスにおける明らかな違いから、標準化されたベンチマークだけでは不十分であることがわかります。特に、特定のタスクでわずかに優れた AI を持つことが実際に重要となる場合にはなおさらです。
現実世界でのベンチマーク
企業がどの AI システムを採用するかを選ぶ際、多くの場合、これは技術とコストに関する判断であり、十分な性能を持つモデルを購入していることを確認するためにパブリックなベンチマークに依存します(もしベンチマークを一切使用しないとしても)。これは特定のユースケースでは問題ないかもしれませんが、すぐに破綻します。なぜなら、多くの点で AI はソフトウェアというよりも、奇妙な能力と弱点を持つ人間のように振る舞うからです。採用というアナロジーを用いて技術の導入を考えるならば、「十分である」というアプローチをベンチマークに正当化するのはより困難になります。企業は平均以上の能力を持つ人材を採用するために多額の費用を費やしており、特にその人が他の多くの人々への助言を担う立場にある場合はなおさら慎重になります。AI に対しても同様の姿勢が求められます。単に自社のためにモデルを選ぶのではなく、厳密な面接を行う必要があるのです。
AI の面接は容易な問題ではありませんが、解決可能な課題です。現実世界におけるベンチマークの最も良い例の一つとして、OpenAI の最近発表された GDPval 論文があります。
最初のステップは、実際のタスクを確立することであり、OpenAI は金融から法律、小売に至るまで多様な業界で平均 14 年の経験を持つ専門家を集め、人間が完了するのに平均 4〜7 時間かかる複雑で現実的なプロジェクトを作成させました(すべてのタスクはこちらでご確認いただけます)。2 つ目のステップは、これらのタスクに対して AI をテストすることです。この場合、複数の AI モデルと他の人間専門家(時給で支払われる)がそれぞれタスクを行いました。
最後に評価段階があります。OpenAI は、回答が AI からのものか人間からのものかを知らない第三者の専門家グループに結果を採点させました。このプロセスには質問ごとに 1 時間以上かかりました。これらを合わせると、非常に多くの労力が必要でした。
しかし、これは AI が得意な分野(ソフトウェア開発から個人向けファイナンシャルアドバイザーに至るまで、最良のモデルが人間を上回った)と苦手な分野(薬剤師、産業エンジニア、不動産エージェントは最良の AI を容易に上回った)を明らかにしました。さらに、異なるモデルが異なるパフォーマンスを示したこともわかります(ChatGPT はより優れた営業マネージャーであり、Claude はより優れたファイナンシャルアドバイザーでした)。したがって、優れたベンチマークは、私たちが「AI 能力のジャグド・フロンティア」と呼ぶものの形状を把握し、それが時間とともにどのように変化するかを追跡するのに役立ちます。
しかし、これらのテストでも、AI が意思決定を行う際の根本的な態度という重要な課題には光を当てていません。その一例として、私は数多くの AI に、私が疑わしいアイデアだと考えるもの(ドローンでグアカモレを配達する会社)の短いプレゼンテーションを行いました。各 AI モデルに対して、GuacaDrone の実現可能性を 1 から 10 のスケールで評価するように求めました(AI は毎回異なる回答をするため、複数回のテストを行う必要があります)。個々の AI モデルは回答において非常に一貫していましたが、AI 間では評価が大きく異なりました。私は個人的にこのアイデアに 2 以下と評価するところですが、モデルたちはより寛容でした。Grok はこれを素晴らしいアイデアだと考え、Microsoft Copilot も興奮していました。一方、GPT-5 や Claude 4.5 などの他のモデルは、より懐疑的でした。

グアカモレのドローン配達サービスのアイデアの実現可能性はどの程度でしょうか?
これらの違いは軽視できません。AI が大規模に助言を行う際、一貫してアイデアを 3〜4 ポイント高く評価したり低く評価したりすることは、あなたを一貫して異なる方向へ導くことを意味します。ある企業ではリスクを受け入れる AI を望むかもしれませんが、別の企業ではそれを避けたいと考えるかもしれません。いずれにせよ、あなたの AI が重要なビジネス課題についてどのように「思考」しているかを理解することが重要です。
モデルへの面接
AI モデルがタスク処理能力を高め、私たちの仕事や生活により深く統合されるにつれ、それらの間の違いをより真剣に捉え始める必要があります。日常的に AI と関わる個人にとっては、直感に基づくベンチマークで十分かもしれません。単に「オッターテスト」を実行すればよいのです。ただし私の場合、飛行機上のオッターに関するテストがあまりにも簡単になったため、Sora 2 で「あのバンドの有名な最後のコンサートのドキュメンタリー映像(その群れとの出来事の前)」というプロンプトを試したところ、印象的な結果を得ました。
しかし、大規模に AI を導入する組織は異なる課題に直面しています。確かに全体的な傾向は明確です:より大きく、より新しいモデルは一般的にほとんどのタスクで優れています。しかし、数千の実際のタスクを処理したり数百人の従業員に助言したりする AI を選択する決定を下す際には、「優れている」だけでは不十分です。平均的な AI が何に優れているかではなく、あなたの AI が具体的に何に優れているかを知らなければなりません。
これが GDPval の研究が明らかにしたことです:トップモデルの中でも、タスクによってパフォーマンスに大きなばらつきがあります。また、GuacaDrone の事例はもう一つの側面を示しています。曖昧な質問に対する判断を要するタスクでは、異なるモデルが一貫して異なる助言を与えるのです。これらの違いは規模が大きくなるほど蓄積します。財務データの分析がわずかに劣る AI や、推奨において一貫してリスク許容度が高い AI は、単一の意思決定に影響を与えるだけでなく、数千の意思決定に波及します。
これらのパターンを理解するために「雰囲気」や「勘」に頼ることはできませんし、一般的なベンチマークに頼ってもそれらを明らかにすることはできません。実際に実行する業務と下す判断に基づいて、AI を体系的にテストする必要があります。自社のユースケースを反映した現実的なシナリオを作成し、複数回実行してパターンを確認します。また、専門家が結果を評価するための時間を確保してください。あなたにとって重要なタスクにおいて、モデル同士を直接比較してください。「このモデルは MMLU で 85% のスコアを獲得している」と知っているのと、「このモデルは財務分析タスクではより正確だが、リスク評価においてはより保守的である」を知っているのとの違いです。新しいモデルがリリースされ評価が必要になるたびに、年間に複数回こうした作業を行う必要があります。
その労力は価値があります。VP(最高責任者)を SAT のスコアだけで採用することはありません。同様に、組織で数千の意思決定に関わる助言を行う AI を選ぶ際にも、「ホモ・エレクトスの頭蓋骨容量が 1,000 立方センチメートルに満たないことを知っているか」といった知識の有無だけで選んではいけません。
購読する
共有する

原文を表示
Given how much energy, literal and figurative, goes into developing new AIs, we have a surprisingly hard time measuring how “smart” they are, exactly. The most common approach is to treat AI like a human, by giving it tests and reporting how many answers it gets right. There are dozens of such tests, called benchmarks, and they are the primary way of measuring how good AIs get over time.
There are some problems with this approach.
First, many benchmarks and their answer keys are public, so some AIs end up incorporating them into their basic training, whether by accident or so they can score highly on these benchmarks. But even when that doesn’t happen, it turns out that we often don’t know what these tests really measure. For example, the very popular MMLU-Pro benchmark includes questions like “What is the approximate mean cranial capacity of Homo erectus?” and “What place is named in the title of the 1979 live album by rock legends Cheap Trick?” with ten possible answers for each. What does getting this right tell us? I have no idea. And that is leaving aside the fact that tests are often uncalibrated, meaning we don’t know if moving from 84% correct to 85% is as challenging as moving from 40% to 41% correct. And, on top of all that, for many tests, the actual top score may be unachievable because there are many errors in the test questions and measures are often reported in unusual ways.

Every benchmark has flaws, but they are all trending the same way - up and to the right. The AIME is a hard math exam, GPQA tests scientific and legal knowledge, the MMLU is a general knowledge test, SWE-bench and LiveBench test coding, Terminal-Bench tests agentic ability. Data from Epoch AI.
Despite these issues, all of these benchmarks, taken together, appear to measure some underlying ability factor. And higher-quality benchmarks like ARC-AGI and METR Long Tasks show the same upward, even exponential, trend. This matches tests of the real-world impact of AI across industries that suggest that this underlying increase in “smarts” translates to actual ability in everything from medicine to finance.
So, collectively, benchmarking has real value, but the few robust individual benchmarks focus on math, science, reasoning, and coding. If you want to measure writing ability or sociological analysis or business advice or empathy, you have very few options. I think that creates a problem, both for individuals and organizations. Companies decide which AIs to use based on benchmarks, and new AIs are released with fanfare about benchmark performance. But what you actually care about is which model would be best for YOUR needs.
To figure this out for yourself, you are going to need to interview your AI.
Benchmarking on Vibes
If benchmarks can fail us, sometimes “vibes” can succeed. If you work with enough AI models, you can start to see the difference between them in ways that are hard to describe, but are easily recognizable. As a result, some people who use AI a lot develop idiosyncratic benchmarks to test AI ability. For example, Simon Willison asks every model to draw a pelican on a bike, and I ask every image and video model to create an otter on a plane. While these approaches are fun, they also give you a sense of the AI’s understanding of how things relate to each other, its “world model.” And I have dozens of others, like asking AIs to create JavaScript for “the control panel of a starship in the distant future” (you can see some older and new models doing that below) or to produce a challenging poem. I have the AI build video games and shaders and analyze academic papers. I also conduct tiny writing experiments, including questions of time travel. Each gives me some insight into how the model operates: Does it make many errors? Do its answers look similar to every other model? What are themes and biases that it returns to? And so on.
With a little practice, it becomes easy to find the vibes of a new model. As one example, let’s try a writing exercise: “Write a single paragraph about someone who doles out their remaining words like wartime rations, having been told they only have ten thousand left in their lifetime. They’re at 47 words remaining, holding their newborn.” If you have used these AIs a lot, you will not be surprised by the results. You can see why Claude 4.5 Sonnet is often regarded as a strong writing model. You will notice how Gemini 2.5 Pro, currently the weakest of these four models, doesn’t even accurately keep track of the number of words used. You will note that GPT-5 Thinking tends to be a fairly wild stylist when writing fiction, prone to complex metaphor, but sometimes at the expense of coherence and story (I am not sure someone would use all 47 words, but at least the count was right). And you will recognize that the new Chinese open weights model Kimi K2 Thinking has a bit of a similar problem, with some interesting phrases and a story that doesn’t quite make sense.

Benchmarking through vibes - whether that is stories or code or otters - is a great way for an individual to get a feel for AI models, but it is also very idiosyncratic. The AI gives different answers every time, making any competition unfair unless you are rigorous. Plus, better prompts may result in better outcomes. Most importantly, we are relying on our feelings rather than real measures - but the obvious differences in vibes show that standardized benchmarks alone are not enough, especially when having a slightly better AI at a particular task actually matters.
Benchmarking on the Real World
When companies choose which AI systems to use, they often view this as a technology and cost decision, relying on public benchmarks to ensure they are buying a good-enough model (if they use any benchmarks at all). This can be fine in some use cases, but quickly breaks down because, in many ways, AI acts more like a person, with strange abilities and weaknesses, than software. And if you use the analogy of hiring rather than technological adoption, then it is harder to justify the “good enough” approach to benchmarking. Companies spend a lot of money to hire people who are better than average at their job and would be especially careful if the person they are hiring is in charge of advising many others. A similar attitude is required for AI. You shouldn’t just pick a model for your company, you need to conduct a rigorous job interview.
Interviewing an AI is not an easy problem, but it is solvable. Probably the best example of benchmarking for the real world has been OpenAI’s recent GDPval paper. The first step is establishing real tasks, which OpenAI did by gathering experts with an average of 14 years of experience in industries ranging from finance to law to retail and having them generate complex and realistic projects that would take human experts an average of four to seven hours to complete (you can see all the tasks here). The second step is testing the AIs against those tasks. In this case both multiple AI models and other human experts (who were paid by the hour) did each task. Finally, there is the evaluation stage. OpenAI had a third group of experts grade the results, not knowing which answers came from the AI and which from the human, a process which took over an hour per question. Taken together, this was a lot of work.
But it also revealed where AI was strong (the best models beat humans in areas ranging from software development to personal financial advisors) and where it was weak (pharmacists, industrial engineers, and real estate agents easily beat the best AI). You can further see that different models performed differently (ChatGPT was a better sales manager, Claude a better financial advisor). So good benchmarks help you figure out the shape of what we called the Jagged Frontier of AI ability, and also track how it is changing over time.

But even these tests don’t shed light on a key issue, which is the underlying attitude of the AI when it makes decisions. As one example of how to do this, I gave a number of AIs a short pitch for what I think is a dubious idea - a company that delivers guacamole via drones. I asked each AI model to rate, on a scale of 1-10, how viable GuacaDrone was ten times each (remember that AIs answer differently every time, so you have to do multiple tests). The individual AI models were actually quite consistent in their answers, but they varied widely from AI to AI. I would personally have rated this idea a 2 or less, but the models were kinder. Grok thought this was a great idea, and Microsoft Copilot was excited as well. Other models, like GPT-5 and Claude 4.5, were more skeptical.

How viable is my idea for a guacamole drone delivery service?
The differences aren’t trivial. When your AI is giving advice at scale, consistently rating ideas 3–4 points higher or lower means consistently steering you in a different direction. Some companies may want an AI that embraces risk, others might want to avoid it. But either way, it is important to understand how your AI “thinks” about critical business issues.
Interview your model
As AI models get better at tasks and become more integrated into our work and lives, we need to start taking the differences between them more seriously. For individuals working with AI day-to-day, vibes-based benchmarking can be enough. You can just run your otter test. Though, in my case, otters on planes have gotten too easy, so I tried the prompt “The documentary footage from 1960s about the famous last concert of that band before the incident with the swarm of otters” in Sora 2 and got this impressive result.
But organizations deploying AI at scale face a different challenge. Yes, the overall trend is clear: bigger, more recent models are generally better at most tasks. But “better” isn’t good enough when you’re making decisions about which AI will handle thousands of real tasks or advise hundreds of employees. You need to know specifically what YOUR AI is good at, not what AIs are good at on average.
That’s what the GDPval research revealed: even among top models, performance varies significantly by task. And the GuacaDrone example shows another dimension - when tasks involve judgment on ambiguous questions, different models give consistently different advice. These differences compound at scale. An AI that’s slightly worse at analyzing financial data, or consistently more risk-seeking in its recommendations, doesn’t just affect one decision, it affects thousands.
You can’t rely on vibes to understand these patterns, and you can’t rely on general benchmarks to reveal them. You need to systematically test your AI on the actual work it will do and the actual judgments it will make. Create realistic scenarios that reflect your use cases. Run them multiple times to see the patterns and take the time for experts to assess the results. Compare models head-to-head on tasks that matter to you. It’s the difference between knowing “this model scored 85% on MMLU” and knowing “this model is more accurate at our financial analysis tasks but more conservative in its risk assessments.” And you are going to need to be able to do this multiple times a year, as new models come out and need evaluation.
The work is worth it. You wouldn’t hire a VP based solely on their SAT scores. You shouldn’t pick the AI that will advise thousands of decisions for your organization based on whether it knows that the mean cranial capacity of Homo erectus is just under 1,000 cubic centimeters.
Subscribe now
Share

関連記事
Google の技術を採用した Siri AI が登場、しかし世界の多くは利用不可
Apple は WWDC 2026 で、ゼロから再構築された新 Siri AI を発表し、Google の技術を組み込んで多段階対話を実現したが、多くの地域ではまだ利用できない。
マクドナルド、Google 支援の AI ドライブスルー注文システムをテスト中
マクドナルドは、Google が支援する「ArchIQ」と呼ばれるAIシステムを米国の5店舗で試験運用しており、このシステムがドライブスルーでの注文受付や店舗運営をサポートしている。
Anthropic、Claude Fable 5 と Claude Mythos 5 を発表:基盤モデルは同一だが安全策が異なり、新「Mythos クラス」 tiers 登場
Anthropic は 2026 年 6 月 9 日、能力が Opus クラスを上回る新 tiers「Mythos クラス」に属する Claude Fable 5 と Claude Mythos 5 を発表した。Fable 5 は一般利用向けに安全策を強化し、Mythos 5 は一部制限を解除した限定版として提供される。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み