AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
The Batch·2026年4月17日 09:00·約26分で読める

Metaがオープンウェイトから方針転換、大手製薬会社がAIに投資、規制のパッチワーク、人間集団のシミュレーション

#AI開発手法#チーム組織#ニュースレター#業界動向#ソフトウェアエンジニアリング
TL;DR

The Batchは、AIネイティブなソフトウェアエンジニアリングチームが従来型チームとは大きく異なる方法で運営されているという洞察を提供するニュースレターである。

AI深層分析2026年4月18日 07:40
2
参考/ 5段階
深度40%
2
関連度30%
4
実用性20%
2
革新性10%
2

キーポイント

1

AIネイティブチームの独自性

AIを中核とするソフトウェア開発チームは、従来の開発手法とは異なるプロセスと文化を持って運営されている。

2

ニュースレターの概要

The Batchは、AIニュースと洞察を提供する定期配信コンテンツであり、今回の記事はその紹介的な内容となっている。

3

AI業界の動向

記事タイトルから、Metaの戦略転換、製薬業界のAI投資、規制の複雑化、人間集団のシミュレーションなど、多様なAI関連トピックが扱われていることが示唆される。

影響分析・編集コメントを表示

影響分析

この記事自体はニュースレターの紹介であり、具体的な技術的詳細や業界への直接的な影響は限定的である。ただし、AIネイティブチームの独自性という概念は、AI開発組織の在り方を考える上での参考となる。

編集コメント

提供された内容は記事の一部のみであり、完全な分析には記事全文が必要。タイトルからは興味深いトピックが並ぶが、本文の情報量が不足しているため、評価は控えめとなる。

親愛なる皆様へ、

AIネイティブなソフトウェアエンジニアリングチームは、従来のチームとは非常に異なる方法で運営されます。明白な違いは、AIネイティブチームがコーディングエージェントを使用して製品を大幅に高速に構築することですが、これにより運用方法の多くの他の変化が生じます。例えば、一部の優れたエンジニアは単にコードを書くだけでなく、より広範な役割を果たすようになりました。彼らは部分的にはプロダクトマネージャーであり、デザイナーであり、場合によってはマーケターでもあります。さらに、同じオフィスで対面コミュニケーションができる小規模チームは、驚くべき速度で移動できます。

現在、高速に構築できるため、何を構築するかを決定することに費やす時間の割合を増やさなければなりません。このプロジェクトマネジメントのボトルネックに対処するため、一部のチームはエンジニア対プロダクトマネージャー(PM)比率を、例えば8:1から最低1:1まで引き下げています。しかし、さらに改善できます:もし「何を構築するか」を決定するPMが1名、「それを構築する」エンジニアが1名いる場合、彼らの間のコミュニケーションがボトルネックになります。これが私が目にする最も高速に移動するチームは、一部の製品作業を行う方法を知っているエンジニア(およびオプションで、一部のエンジニアリング作業を行う方法を知るPM)を持っている傾向がある理由です。エンジニアがユーザーを理解し、何を構築するかを決定し、それを直接構築できる場合、彼らは驚くべき速度で実行できます。

私は、エンジニアが製品意思決定を含む役割に成功して拡大し、PMがソフトウェア構築の役割に拡大するのを見てきました。テクノロジー業界にはPMよりもエンジニアの方が多くいますが、どちらも有望なキャリアパスです。もしあなたがエンジニアなら、一部のプロダクトマネジメントスキルを学ぶことが有用であることに気づくでしょうし、もしあなたがPMなら、構築方法を学んでください!

プロダクトマネジメントのボトルネックを超えて見ると、私はデザイン、マーケティング、法務コンプライアンス、その他多くの分野でもボトルネックを目にします。コーディングを10倍または100倍高速化すると、他のすべてが比較して遅くなります。例えば、私の一部のチームは非常に迅速に優れた機能を開発したため、マーケティング組織がユーザーへの伝え方を figuring out することに追われることになりました——これはマーケティングのボトルネックです。あるいは、チームが1日で構築できるソフトウェアを法務部門がレビューに1週間要する場合、それは法務コンプライアンスのボトルネックです。このように、エージェント型コーディングはソフトウェアエンジニアリングのワークフローだけでなく、その周囲のすべてのチームを変革しています。

小規模でAIを活用したチームがより多くの成果を上げられる場合、ジェネラリスト(多能工)が優位に立ちます。従来の企業は、プロジェクトを実行し価値を創造するために、エンジニアリング、プロダクトマネジメント、デザイン、マーケティング、法務など、多くの専門分野からの人材を集める必要があります。これにより、一緒に作業する大規模なスペシャリストのチームが結果として生まれました。しかし、5つの異なる専門分野を必要とする作業を2人のチームが行う場合、それらの個人のうち一部は単一の専門分野外の役割を果たさなければなりません。一部の小規模チームでは、個人が深い専門性を持っている場合もあります。例えば、一人は優れたエンジニアであり、もう一人は優れたPMかもしれません。しかし、彼らはプロジェクトを前進させるために必要な他の主要な機能も理解しており、必要に応じて他の種類の問題について考えることに飛び込むことができます。もちろん、AIツールの熟練度は大きな助けとなります。なぜなら、それは異なる役割を含む問題について考えるのを助けてくれるからです。

2人のチームであっても、高速に移動するためには、コミュニケーションのボトルネックを最小限に抑える必要があります。これが私が同じ場所での作業を重視する理由です。リモートチームも良好に機能し得ますが、最高速度は全員が部屋にいて、問題解決のために瞬時にコミュニケーションできる場合に達成されます。

このレターは、約2〜10人のAIネイティブチームに焦点を当てていますが、小規模なチームで何でもできるわけではありません。より大規模なチームの調整については、今後取り上げます。

これらの役割への移行は多くの人にとってNavigating( navigating )が難しいことを理解しています。同時に、関連するスキルを学ぶ意志を持つ個人や小規模チームが、以前よりもはるかに多くの成果を上げられるようになったことに励まされています。これが学習と構築の黄金期です!

引き続き構築してください、

Andrew

DEEPLEARNING.AIからのメッセージ

「Spec-Driven Development」では、コーディングエージェントとの作業における規律あるワークフローを学びます。仕様(spec)を書き、実装を段階的にガイドし、構築するものを制御し続けてください! 無料で参加してください。

ニュース

Llama後のMeta

Metaはオープンウェights戦略からクローズドな代替案へ転換しました。

新しい情報:

Metaは1年ぶりの最初のAIモデル、および9ヶ月間のSuperintelligence Labsの最初の製品を導入しました。Muse Sparkは、ツール使用とマルチエージェントオーケストレーションをサポートするネイティブなマルチモーダル推論モデルです。一部の健康およびマルチモーダルベンチマークで首位を占めますが、コーディングやエージェント作業では劣っており、Metaはこれにより、より大規模なモデルを構築する計画のあるアーキテクチャの再設計を検証したと位置づけています。

入力/出力:

テキスト、画像、音声(最大262,000トークン)入力、テキスト出力

パフォーマンス:

Artificial Analysis Intelligence Indexで4位

利用可能性:

meta.aiおよびMeta AIアプリ経由で無料;WhatsApp、Instagram、Facebook、Messenger、Ray-Ban Meta AIグラスへの提供予定;選択されたパートナー向けAPIプレビュー

機能:

3つの推論モード(instant、thinking、contemplating)、ショッピングモード

非公開:

パラメータ数、アーキテクチャ、トレーニングデータおよび方法、出力サイズ制限

動作原理:

MetaはMuse Sparkの限られた技術詳細を開示しましたが、トレーニング効率とマルチエージェントオーケストレーションの向上、および健康分野へのドメイン固有投資を強調しました。

同社は事前トレーニングのアプローチ、モデルアーキテクチャ、最適化、データキュレーションを再構築しました。Metaは、Muse SparkがLlama 4 Maverickの能力と同等であることを主張し、トレーニングに割り当てられた処理量の1桁以上少ないもので達成したと述べています。

トレーニング後には、チームが過度な推論トークンを使用することに対してモデルをペナルティ化する強化学習が含まれ、このプロセスは「思考圧縮(thought compression)」と呼ばれます。このペナルティの下で、モデルはまずより長く推論することで改善し、次にその推論を圧縮することを学び、さらに改善のために推論を延長しました。

単一の思考チェーンを処理するのではなく、「contemplating」モードは複数のエージェントを起動し、解決策を提案し、それらを精緻化し、結果を並列で集約します。Metaはこれにより、同等のレイテンシーでより良いパフォーマンスが達成されると述べています。

健康推論を改善するため、Metaは1,000人以上の医師を動員し、より正確で包括的な健康回答を生み出すことを目的としたトレーニングデータのキュレーションを支援させました。

結果:

Muse Sparkのベンチマークパフォーマンスは一般的に競争力があり、特にトークン効率的です。Metaは、コーディングおよびエージェントパフォーマンスにおけるギャップを示していることを認めています。

Artificial Analysis Intelligence Index(経済的に有用なタスクの10のベンチマークの複合指標)において、推論モードに設定されたMuse Spark(52)は、推論モードに設定されたGemini 3.1 Pro PreviewとGPT-5.4(ともに57)に次いで全体で4位、および推論モードに設定されたClaude Opus 4.6(53)に次いで4位となりました。Muse Sparkはインデックスを完了するために約59百万トークンを使用しました。これに対し、Claude Opus 4.6は約158百万トークン、GPT-5.4は116百万トークンでした。

Muse Sparkは、少なくとも1つのマルチモーダルベンチマークで最高評価を獲得しました。CharXiv Reasoning(チャートや図の理解)において、Metaによると、Muse Spark(86.4%)はGPT-5.4(82.8%)およびGemini 3.1 Pro(80.2%)を上回りました。MMMU Pro(多分野の視覚的問題の解決)において、Artificial Analysisによると、Muse Spark(81%)はGemini 3.1 Pro(82%)に次いで2位でした。Artificial AnalysisのCoding Index(コーディングベンチマークの加重平均)において、Muse Spark(47)はGPT-5.4(57)、Gemini 3.1 Pro Preview(56)、および推論モードに設定されたClaude Sonnet 4.6(51)に劣りました。

Artificial Analysisは独立して、Humanity’s Last ExamにおいてThinkingモードのMuse Sparkを39.9%と測定し、Gemini 3.1 Pro Preview(44.7%)およびGPT-5.4(41.6%)に劣りました。しかし、MetaはMuse Sparkがcontemplatingモードを使用した際に58%を報告しています。

Metaのテストでは、Muse SparkはOpenAIの健康ベンチマークの部分集合であるHealthBench Hardにおいて42.8%で全モデルを上回り、2番目に優れたGPT-5.4(40.1%)をリードしました。Muse Sparkは、エージェント型ブラウジング評価であるDeepSearchQAでも74.8%で首位となり、Claude Opus 4.6 Max(73.7%)を上回りました。

ニュースの背景:

Muse Sparkは、Llama 4のトレーニングデータがベンチマークの回答で汚染されているという批判を受けてAIラボを再編組織して以来、Metaの最初の新しいモデルです。2025年6月、MetaはScale AIの49%の持分を取得するために143億ドルを支出し、共同創業者であるAlexandr Wangを最高AI責任者(CAIO)として迎え入れ、数億ドルの報酬パッケージを含む大規模な採用ラッシュを開始しました。このプロプライエタリ(proprietary)なリリースは、オープンウェightsのLlamaモデル上でプロジェクトを構築してきた多くの開発者 among 懸念を引き起こしています。

なぜ重要か:

Metaは、その製品野心にとって最も重要な機能に投資しています:数十億のカメラ搭載ユーザーのためのマルチモーダル知覚、AIクエリの最も一般的なカテゴリの一つである健康推論、および複数ステップのタスクのためのマルチエージェント調整。非公開APIプレビューが進行中であり、OpenAI、Google、Anthropicと共にビジネス顧客の獲得を競争する立場を確立しています。しかし、オープンウェightsにおける米国主要推進者からの転換は、開発者コミュニティにとって重大な損失です。

私たちの考察:

Muse SparkのcontemplatingモードおよびKimi K2.5のAgent Swarmは、新たなパターンを示しています:より多くのラボが、常に大規模な単一モデルをトレーニングするのではなく、推論時に複数のエージェントをオーケストレーションするようにモデルをトレーニングすることでパフォーマンスをスケーリングしています。

生成AIは、テキスト、画像、音声、ビデオ、コードを生成できることが証明されました。世界で最も価値のある製薬会社は、医薬品も生成できるという確信のもと、数十億ドルを投じています。

新しい情報:

製薬大手のEli Lillyは、創薬パイプライン全体に生成AIを適用する香港のバイオテクノロジー企業Insilico Medicineに対し、最大27億5000万ドルを支払うことに合意しました。当初、Lillyはヒトでの試験未実施の非公開医薬品の開発および販売に関する独占権を取得するために1億1500万ドルを支払います。さらにの支払いは、開発、規制、商業上のマイルストーンに紐づきます。Fierce Biotechの報告によれば、これは2023年のAIソフトウェアライセンスおよび2025年11月の1億ドルの研究協力に続く3番目の合意です。

AI創薬:

2014年に設立されたInsilicoは、AIを使用して28の候補医薬品を開発しており、その約半分が臨床試験中です。最も進んでいるRentosertibは、瘢痕化により肺機能が徐々に低下する疾患である特発性肺線維症(IPF)を対象としています。Phase 2a試験(有効性の初期・小規模テスト)は陽性結果を示しました。炎症性腸疾患の治療を目的とした2番目の医薬品Garutadustatは、2026年1月にPhase 2aに入りました。

動作原理:

疾患を選択した後、Insilicoは創薬の2つの段階に独自のプロプライエタリ生成モデルを適用します:標的タンパク質の特定と、そのタンパク質に作用する分子の設計です。

標的を見つけるために、InsilicoはPandaOmicsというツールを使用して、生物学的データセット、公開研究、特許、臨床試験、助成金申請を分析します。ディープラーニングモデルは、疾患への関連性、医薬品標的としての適合性、新規性に基づいて候補標的をランク付けします。IPFの場合、PandaOmicsはIPFおよび関連疾患の特徴である瘢痕化に関与するタンパク質TNIKを最上位候補として特定しました。以前、誰もTNIKをブロックすることでIPFを治療しようとした者はいませんでした。

TNIKをブロックする分子を設計するために、チームはChemistry42を使用しました。約30の生成モデルが並列で実行され、結合強度、毒性、溶解性、その他の特性ごとに最適化された候補分子構造を生み出しました。科学者は複数のラウンドにわたって出力を評価し、精緻化しました。このプロセスにより、Insilicoが80化合物未満を合成およびテストした後、リード分子が得られました。従来の創薬では、チームはしばしば20万から100万の既存化合物をスクリーニングしてから、数百の候補を合成およびテストします。

標的の特定から前臨床安全性試験の準備が整った分子の合成までの所要時間は、約18ヶ月でした。これに対し、典型的な期間は5〜6年です。このペースは2021年から2024年のInsilicoの20以上のプログラム全体で一定であり、各プログラムは約60〜200分子を合成およびテストして1つの前臨床候補を見つけました。

ニュースの背景:

新しい医薬品の開発には通常10〜15年かかり、コストは20億ドル以上であり、候補の約86%が承認に至りません。創薬開発者の数は増え続けており、プロセスを加速するためにAIを適用しています。2025年中頃の時点で、臨床段階にある173のAI搭載医薬品プログラムをカタログ化したピアレビュー分析があります。それでもなお、AIによって発見された医薬品は規制承認を受けていません。Phase 2に至る医薬品候補の70%は次のフェーズに至らず、BenevolentAIおよびRecursion PharmaceuticalsからのAI設計医薬品も含まれます。

なぜ重要か:

Insilicoのパイプラインは、生成AIが科学における最も困難な問題の一つ——特定のタンパク質に結合し、体内で吸収され、無毒であり、患者を助ける分子を見つけること——に取り組めることを示唆しています。RentosertibのPhase 2a試験では、最高用量を投与された参加者は強制肺活量(肺機能の指標)で平均98.4ミリリットルの増加を示し、プラセボを投与された参加者は20.3ミリリットルの減少を示しました。これは初期ですが、AI生成医薬品が患者を助けることができるという具体的な証拠です。

私たちの考察:

AIは医薬品開発を加速していますが、それらの加速された化合物が従来の方法で開発されたものよりも高い率で臨床試験を通過するかどうかは、まだ不明です。

米州のAI法への前進

米国の各州は、国家レベルの法律を優先して州ごとの立法を抑制しようとするTrump大統領の努力にもかかわらず、AIを規制する法律を制定し続けています。

新しい情報:

多くの州が今年AIの規制に着手し、開発者の法的要件遵守の努力を複雑にする可能性のある立法のパッチワーク(断片化)に貢献しています。各州は、40の州がすでに制定した100以上の既存法律(若者のチャットボット使用を抑制し、著作権素材のAIシステムトレーニングに許可を要求し、またはAIシステムのセキュリティテストを要求するもの)に加え、1つのかんたんに1,500以上の法案を検討していると、The New York Timesは報告しています。

動作原理:

California州知事のGavin Newsom氏は、Trump AdministrationのAI規制を州ごとに抑制しようとする取り組みに対して最も目立つ反対者でした。しかし、40以上の州が独自の法律を通過させる過程にあります。その中には以下が含まれます:

California。

米国およびそれ以上の規制の指標としてよく知られるCaliforniaは、国で最も包括的なAI法を確立しました。3月30日、Newsom知事は州が使用するAIツールがプライバシーを保護し、市民権をサポートし、バイアスを軽減することを要求する行政命令を発令しました。8月以降、大規模なテクノロジープラットフォームおよびAIプロバイダーは、AI生成出力に不可視の透かし(watermark)を適用しなければなりません。これらの規定は、1月に発効したさまざまな法律に追加されます。例えば、高度なAIモデルの開発者は壊滅的なリスクを評価し、重大な安全インシデントを報告しなければなりません。LLMプロバイダーは、チャットボットが自殺や未成年者との性行為について話すことを防止し、ユーザーにAIとのチャット時に定期的に警告しなければなりません。

Colorado。

2024年、Coloradoは郡内で最も厳格な規制のいくつかを含む包括的なAI法を通過させました。7月に発効予定であり、教育、雇用、金融、医療、住宅などの高リスク分野で意思決定を行うように設計されたシステムによるアルゴリズム差別から消費者を保護するために「高リスクAIシステムの開発者およびデプロイヤー」を要求します。開発者はシステムの制限、トレーニングデータ、リスク軽減の取り組みを文書化しなければならず、モデルをデプロイする者は毎年その影響を評価し、AIが彼らに影響を与える決定を下した際に消費者に警告しなければなりません。しかし、企業およびテクノロジー会社からの圧力により、General Assemblyは毎年影響評価の要件およびその他の負担を緩和することを検討しています。

Minnesota。

Minnesotaは2023年に早期に、深層偽造(deepfake)による選挙干渉を禁止する動きを取りました。現在、議会は、人々の写真から衣服を除去したり、個人の行動に基づいて動的に価格を設定するためにAIの使用を禁止する法案を検討しています。8月には、健康保険会社が関連医師のレビューなしにAIを使用して医療を拒否することを禁止する法律が発効します。

New York。

この州は、早期の深層偽造からの保護から2026年のより広範な制限に至るまで、国で最も厳格なAI規制のいくつかを確立しています。2027年1月以降、収益が5億ドルを超えるモデルメーカーは、ユーザーが生物兵器または自律型ハッキングツールを作成することをブロックするための厳格なプロトコルを遵守しなければなりません。彼らはこれらの取り組みを毎年監査し、インシデントを迅速に報告しなければなりません。

Ohio。

3月下旬に発効した法律は、許可なく製品を販売したり親密な画像を作成するために人の声または外見を複製するためにAIを使用することを禁止しています。Ohioは、配偶者、マネージャー、または財産所有者の役割においてAIシステムに法人格および法的権利を否認する法案を検討しています。また、競合他社間で小売価格および賃貸料を調整するためにAIを使用することを禁止する法案も検討しています。

Utah。

2026年 alone 、Utah議会は、州の2024年Artificial Intelligence Policy Actを精緻化するいくつかの法案を通過させました。例えば、数ヶ月以内に発効予定の法案は、プラットフォーム会社が同意のない性的に露骨な深層偽造を配布することを禁止します。もう1つの法案は、健康保険会社が医師の入力なしにAIを使用して医療を拒否することを禁止します。州は、規制監督の下で新技術をテストしている間、AI会社が特定の規制からの一時的な免除を申請することを認めています。

ニュースの背景:

Trump Administrationは、州ごとのパッチワークが米国のAIにおけるリーダーシップを阻害する可能性のある懸念が高まるにつれて、国家レベルの規制を州法よりも推進し始めました。12月、Trump大統領は州レベルの立法を抑制することを目的とした行政命令に署名しました。この命令は、イノベーションを窒息させる法律および政治的偏向がある可能性のあるバイアス防止規制を対象としています。それは「過重(onerous)」なAI法を通過または執行する州から連邦資金を withheld することを脅し、議会は州規制をブロックするよう促しています。3月には、連邦立法のためのガイドラインが続きました。このガイドラインは、子供たちの保護およびAIデータセンターのエネルギー消費増大によって引き起こされる電気料金値上げを制御することを支持しています。

なぜ重要か:

AIを取り巻くますます複雑な規制環境は、米国におけるコンプライアンスの潜在的な地雷原を作成し、世界中で焦点が定まらない矛盾した規制に貢献しています。特定のAIモデルは、Coloradoでバイアス監査を通過し、Californiaで透かしを提供し、New Yorkで報告基準を満たすことが要求される可能性があります——これらすべての要件を連邦政府が優先しようとする一方で。この管轄権の綱引きは、AIシステムの構築コストを増加させ、新しいアプリケーションおよびサービスのデプロイにおける法的リスクを追加し、連邦政府が過重と見なす州の義務を遵守するために連邦資金が withheld される可能性を高められます。

私たちの考察:

現在の州レベルの義務の一部は妥当です。例えば、ユーザーはAI会社がプライバシーを保護することを信頼できるべきであり、子供たちは大人によって生成され、大人向けに生成されたAIのゴミ(slop)から保護されるべきです。しかし、そのような要件は国家レベルで課されるべきです。私たちはCongressに、より一貫性のある安定した規制環境を構築するよう呼びかけます。

多様な人間コホートのシミュレーション

あなたの提供物に対して公衆がどのように反応するかを理解したい場合、大規模言語モデル(LLM)は、機能、特徴、プロモーション、または価格に関する質問に答えるユーザーをシミュレートできます。しかし、LLMは人間が示すような多様な変異で応答しません。研究者たちは、LLMにカスタマイズ可能な態度の多様性を持つペルソナを引き受けるようプロンプトする手法を開発しました。

新しい情報:

Davide Paglieri、Logan Cross、およびGoogleの同僚らは、Persona Generatorsを提案しました。彼らのアプローチは、25のペルソナをカバーするマップに対してプロンプトを構成するコードを生み出します。

主要な洞察:

LLMに人間のペルソナを引き受させることは、通常、効果的なプロンプトを構成すること(例えば、「今日の政治において、あなたは民主党員と見なしていたとして以下の質問に答えてください...」)の問題です。しかし、このアプローチは、プロンプトが明示的に特定の人口統計学的特性を採用するよう指示した場合でも、人間集団が提供する範囲を反映しない平均的な応答を引き出す傾向があります。代替案は、モデルにペルソナプロンプトをプログラム的に変更するよう指示し、特定の意見、態度、または懸念の範囲をカバーする出力を生み出すまでです。ペルソナ人口の範囲(具体的には、同意から不同意までの度合いでランク付けされた態度)を定義するガイドラインが与えられれば、進化的アルゴリズムは、全範囲の応答を引き出す一連のプロンプトを生み出すようモデルを押し進めることができます。

動作原理:

著者は、進化的手法AlphaEvolveを使用して、(i) 25のペルソナ用のプロンプトを生成し、(ii) 一連の生成された質問票への回答に基づいてその態度の多様性を最大化するコードを生成しました。

著者はまず、医療、金融リテラシー、陰謀論など、さまざまな主題に関する30の質問票をGemini 2.5 Proを使用して生成しました。各質問票には、コンテキスト(トピックの説明)、一連の「多様性軸」(リスクへの耐性または制度への信頼など)、および1(強く同意)から5(強く不同意)のスケールで回答する軸に関連する質問が含まれていました。

彼らは、各質問票あたり25のペルソナプロンプトを生み出すコード(当初は著者によって記述され、その後AlphaEvolveによって反復的に更新)を作成しました。

ペルソナの応答の生産を自動化するため、著者はエージェントベースシミュレーションを構築するためのライブラリであるConcordiaを使用してGemma 3-27B-ITにプロンプトしました。LLMは各ペルソナを順次引き受け、対応する質問票に応答しました。各ペルソナについて、彼らはその回答をベクトルに変換しました。

各質問票に応答したペルソナ間の多様性を評価するため、彼らは任意の2つのベクトルの平均距離や、ペルソナ人口がすべての可能な応答をカバーする度合いなど、6つの指標を計算しました。

AlphaEvolveは10の異なるコードバージョンで並列に動作し、すべてのペルソナ across 多様性指標を最大化するためにそれらを反復的に更新しました。500回のイテレーション後、著者はすべての多様性指標の平均を最大化するコードを選択しました。

推論時、コンテキストおよび一連の多様性軸が与えられれば、システムは25の多様なペルソナを作成しました。

結果:

新鮮なコンテキストおよび多様性軸が与えられれば、結果として得られたペルソナは、米国人口統計学に基づいた大規模なペルソナプロンプトデータセットであるNemotron Personasおよび、幼少期から成人期までの生成された記憶に基づくConcordiaメモリジェネレーターによって生成されたペルソナプロンプトよりも、一貫して多様性指標を上回りました。一連のテスト質問票が与えられれば、著者のペルソナは可能な応答の82%をカバーし、Nemotron Personasは76%、Concordiaメモリジェネレーターは46%をカバーしました。

なぜ重要か:

視聴者を拡大することを目指す組織は、公衆の世情を広く反映する合成ペルソナから利益を得ることができ、現実世界の視聴者に一致する合成ペルソナを作成する組織は、より多様な群衆から洞察を得ることができます。この作業は、最も確からしい出力を生成する傾向があるトレーニングデータ(外れ値ではない)に一致することという目的から、すべての望ましい可能性をカバーすることにシフトします。個々のペルソナではなく、ペルソナジェネレーターを最適化することで、可能性のあるユーザー行動のより広範な表現が解放されます。

私たちの考察:

合成ペルソナは、LLMへのプロンプトにより容易に構築できる場合に何を構築するかを決定することの難しさである、プロダクトマネジメントのボトルネックをナビゲートするための魅力的な可能性を提供します。

原文を表示

Dear friends,AI-native software engineering teams operate very differently than traditional teams. The obvious difference is that AI-native teams use coding agents to build products much faster, but this leads to many other changes in how we operate. For example, some great engineers now play broader roles than just writing code. They are partly product managers, designers, sometimes marketers. Further, small teams who work in the same office, where they can communicate face-to-face, can move incredibly quickly.Because we can now build fast, a greater fraction of time must be spent deciding what to build. To deal with this project-management bottleneck, some teams are pushing engineer:product manager (PM) some teams are pushing engineer:product manager (PM) ratios downward from, say, 8:1 to as low as 1:1. But we can do even better: If we have one PM who decides what to build and one engineer who builds it, the communication between them becomes a bottleneck. This is why the fastest-moving teams I see tend to have engineers who know how to do some product work (and, optionally, some PMs who know how to do some engineering work). When an engineer understands users and can make decisions on what to build and build it directly, they can execute incredibly quickly.I’ve seen engineers successfully expand their roles to including making product decisions, and PMs expand their roles to building software. The tech industry has more engineers than PMs, but both are promising paths. If you are an engineer, you’ll find it useful to learn some product management skills, and if you’re a PM, please learn to build!Looking beyond the product-management bottleneck, I also see bottlenecks in design, marketing, legal compliance, and much more. When we speed up coding 10x or 100x, everything else becomes slow in comparison. For example, some of my teams have built great features so quickly that the marketing organization was left scrambling to figure out how to communicate them to users — a marketing bottleneck. Or when a team can build software in a day that the legal department needs a week to review, that’s a legal compliance bottleneck. In this way, agentic coding isn’t just changing the workflow of software engineering, it’s also changing all the teams around it.When smaller, AI-enabled teams can get more done, generalists excel. Traditional companies need to pull together people from many specialties — engineering, product management, design, marketing, legal, etc. — to execute projects and create value. This has resulted in large teams of specialists who work together. But if a team of 2 persons is to get work done that require 5 different specialities, then some of those individuals must play roles outside a single speciality. In some small teams, individuals do have deep specializations. For example, one might be a great engineer and another a great PM. But they also understand the other key functions needed to move a project forward, and can jump into thinking through other kinds of problems as needed. Of course, proficiency with AI tools is a big help, since it helps us to think through problems that involve different roles.Even in a two-person team, to move fast, communication bottlenecks also must be minimized. This is why I value teams that work in the same location. Remote teams can perform well too, but the highest speed is achieved by having everyone in the room, able to communicate instantaneously to solve problems.This letter focuses on AI-native teams with around 2-10 persons, but not everything can be done by a small team. I'll address the coordination of larger teams in the future.I realize these shifts to job roles are tough to navigate for many people. At the same time, I am encouraged that individuals and small teams who are willing to learn the relevant skills are now able to get far more done than was possible before. This is the golden age of learning and building!Keep building,AndrewA MESSAGE FROM DEEPLEARNING.AIIn “Spec-Driven Development,” you will learn a disciplined workflow for working with coding agents. Write specs, guide implementation step by step, and stay in control of what you build! Join in for freeNewsLife After LlamaMeta pivoted from its open-weights strategy to deliver a closed alternative.What’s new: Meta introduced its first AI model in a year and the first product of its nine-month-old Superintelligence Labs. Muse Spark is a natively multimodal reasoning model with support for tool use and multi-agent orchestration. It leads in some health and multimodal benchmarks but falls short in coding and agentic work, which Meta frames as validating an architectural redesign on which the company plans to build larger models.Input/output: Text, image, speech in (up to 262,000 tokens), text outPerformance: Fourth place on the Artificial Analysis Intelligence IndexAvailability: Free via meta.ai and Meta AI app; coming to WhatsApp, Instagram, Facebook, Messenger, and Ray-Ban Meta AI glasses; API preview for selected partnersFeatures: Three reasoning modes (instant, thinking, contemplating), shopping modeUndisclosed: Parameter count, architecture, training data and methods, output size limitHow it works: Meta disclosed limited technical details about Muse Spark but highlighted gains in training efficiency and multi-agent orchestration plus a domain-specific investment in health.The company reworked its pretraining approach, model architecture, optimization, and data curation. Meta says Muse Spark matches Llama 4 Maverick’s capabilities with over an order of magnitude less processing devoted to training.Post-training involved reinforcement learning in which the team penalized the model for using excessive reasoning tokens, a process the team calls thought compression. Under this penalty, the model first improved by reasoning longer, then learned to compress its reasoning, and then extended its reasoning for further improvement.Rather than processing a single chain of thought, contemplating mode launches multiple agents that propose solutions, refine them, and aggregate the results in parallel. Meta says this achieves better performance while incurring comparable latency.To improve health reasoning, Meta enlisted more than 1,000 physicians to help curate training data aimed at producing more accurate and thorough health responses.Results: Muse Spark’s benchmark performance is generally competitive and notably token-efficient. Meta acknowledged that it shows gaps in coding and agentic performance.On the Artificial Analysis Intelligence Index, a composite of 10 benchmarks of economically useful tasks, Muse Spark set to reasoning (52) places fourth overall behind the tied-for-third Gemini 3.1 Pro Preview set to high reasoning and GPT-5.4 set to xhigh reasoning (both 57), and Claude Opus 4.6 set to max reasoning (53). Muse Spark used around 59 million tokens to complete the index, compared to roughly 158 million tokens for Claude Opus 4.6 and 116 million tokens for GPT-5.4.Muse Spark earns top marks in at least one multimodal benchmark. On CharXiv Reasoning (understanding charts and figures), Muse Spark (86.4 percent) outperformed GPT-5.4 (82.8 percent) and Gemini 3.1 Pro (80.2 percent), according to Meta. On MMMU Pro (solving multidisciplinary visual problems), Muse Spark (81 percent) placed second behind Gemini 3.1 Pro (82 percent), according to Artificial Analysis. On Artificial Analysis’ Coding Index, a weighted average of coding benchmarks, Muse Spark (47) fell behind GPT-5.4 (57), Gemini 3.1 Pro Preview (56), and Claude Sonnet 4.6 set to max reasoning (51).Artificial Analysis independently measured Muse Spark in Thinking mode at 39.9 percent on Humanity’s Last Exam, trailing Gemini 3.1 Pro Preview (44.7 percent) and GPT-5.4 (41.6 percent). However, Meta reports 58 percent when Muse Spark used contemplating mode.In Meta’s tests, Muse Spark outperformed all models on HealthBench Hard, a subset of OpenAI’s health benchmark, at 42.8 percent, ahead of second-best GPT-5.4 (40.1 percent). Muse Spark also led DeepSearchQA, an agentic browsing evaluation, at 74.8 percent, ahead of Claude Opus 4.6 Max (73.7 percent).Behind the news: Muse Spark is the Meta’s first new model since it reorganized its AI labs after critics alleged that the training data for Llama 4 been contaminated with benchmark answers. In June 2025, Meta spent $14.3 billion for a 49 percent stake in Scale AI, brought in cofounder Alexandr Wang as chief AI officer, and launched a hiring spree with pay packages worth hundreds of millions of dollars. The proprietary release has raised concerns among developers, many of whom have built projects on open-weights Llama models.Why it matters: Meta is investing in the capabilities that matter most for its product ambitions: multimodal perception for billions of camera-equipped users, health reasoning for one of the most common categories of AI queries, and multi-agent coordination for multi-step tasks. With a private API preview in progress, it’s positioning itself to compete for business customers alongside OpenAI, Google, and Anthropic. However, its pivot away from being the leading U.S. champion of open weights is a significant loss for the developer community.We’re thinking: Muse Spark’s contemplating mode and Kimi K2.5’s Agent Swarm point to an emerging pattern: More labs are scaling performance by training models to orchestrate multiple agents at inference time rather than training ever-larger single models.Generative AI has proven that it can produce text, images, audio, video, and code. The world’s most valuable pharmaceutical company is betting billions that it can produce drugs as well.What’s new: Pharma giant Eli Lilly agreed to give as much as $2.75 billion to Insilico Medicine, a Hong Kong-based biotechnology company that applies generative AI across its drug-discovery pipeline. Initially, Lilly will pay $115 million for exclusive rights to develop and sell undisclosed drugs that have not yet been tested in humans, while further payments will be tied to developmental, regulatory, and commercial milestones, Fierce Biotech reported. This is the third agreement between the companies following an AI software license in 2023 and a $100 million research collaboration in November 2025.AI drug-discovery: Founded in 2014, Insilico has used AI to develop 28 candidate drugs, roughly half of which are in clinical trials. The most advanced one, Rentosertib, targets idiopathic pulmonary fibrosis (IPF), a disease in which scarring progressively reduces lung function. A Phase 2a trial (an early, small-scale test of efficacy) showed positive results. A second drug, Garutadustat, which is intended to treat inflammatory bowel disease, entered Phase 2a in January 2026.How it works: After choosing a disease, Insilico applies proprietary generative models to two stages of drug discovery: identifying which protein to target and designing a molecule to act on that protein.To find targets, Insilico uses a tool called PandaOmics to analyze biological datasets, published research, patents, clinical trials, and grant applications. Deep learning models rank candidate targets by relevance to a disease, suitability as drug targets, and novelty. For IPF, PandaOmics identified TNIK, a protein involved in the scarring that characterizes IPF and related diseases, as the top candidate. No one had previously tried to treat IPF by blocking TNIK.To design a molecule to block TNIK, the team used Chemistry42. Roughly 30 generative models ran in parallel to produce candidate molecular structures, each one optimized for binding strength, toxicity, solubility, and other properties. Scientists evaluated and refined the output over multiple rounds. The process yielded a lead molecule after Insilico synthesized and tested fewer than 80 compounds. In conventional drug discovery, teams often screen 200,000 to 1 million existing compounds before synthesizing and testing hundreds of candidates.The time from identifying targets to synthesizing molecules that are ready for preclinical safety testing took roughly 18 months, compared to a typical five to six years. That pace held steady across more than 20 Insilico programs between 2021 and 2024, each of which synthesized and tested around 60 to 200 molecules to find one preclinical candidate.Behind the news: Developing a new drug typically takes 10 to 15 years and costs more than $2 billion, and roughly 86 percent of candidates fail to reach approval. A growing number of drug developers apply AI to accelerate the process. A peer-reviewed analysis catalogued 173 AI-enabled drug programs across clinical stages as of mid-2025. Nonetheless, no AI-discovered drug has received regulatory approval. Of the drug candidates that reach Phase 2, 70 percent fail to reach the next phase, including AI-designed drugs from BenevolentAI and Recursion Pharmaceuticals.Why it matters: Insilico’s pipeline suggests generative AI can tackle one of the hardest problems in science: finding a molecule that binds to a particular protein, is absorbed by the body, isn’t toxic, and helps patients. In Rentosertib’s Phase 2a trial, participants who took the highest dose gained an average of 98.4 milliliters in forced vital capacity (a measure of lung function), while those who took a placebo declined by 20.3 milliliters. That is early but concrete evidence that AI-generated drugs can help patients.We’re thinking: AI is accelerating drug development, but it remains to be seen whether those accelerated compounds will pass clinical trials at a higher rate than those developed in traditional ways.US States Move Forward With AI LawsU.S. states are continuing to enact laws that regulate AI, despite President Trump’s efforts to discourage state-by-state legislation in favor of national laws.What’s new: Many states have moved to regulate AI this year, contributing to a growing patchwork of legislation that stands to complicate developers’ efforts to meet legal requirements. Collectively, the states are considering numerous bills — more than 1,500, by one tally — in addition to more than 100 existing laws enacted by 40 states that are designed to discourage use of chatbots by young people, require permission to train AI systems on copyrighted material, or require security testing of AI systems, The New York Times reported.How it works: California governor Gavin Newsom has been the most visible opponent of the Trump Administration’s effort to discourage state-by-state regulation of AI. But more than 40 states are in the process of passing their own laws. Among them are:California. Often a bellwether for regulation in the U.S. and beyond, California has established the nation’s most comprehensive AI laws. On March 30, Governor Newsom issued an executive order requiring that AI tools used by the state protect privacy, support civil rights, and mitigate bias. Starting in August, large tech platforms and AI providers must apply an invisible watermark to AI-generated output. These provisions add to a variety of laws that took effect in January. For instance, developers of advanced AI models must assess catastrophic risks and report serious safety incidents. LLM providers must prevent chatbots from discussing self-harm or sex with minors and remind users periodically when they are chatting with AI.Colorado. In 2024, Colorado passed a sweeping AI law with some of the most stringent regulations in the county. Scheduled to go into effect in July, it requires “developers and deployers of high-risk AI systems” to protect consumers from algorithmic discrimination by systems that are designed to make decisions in high-stakes fields such as education, employment, finance, healthcare, and housing. Developers must document system limitations, training data, and efforts to mitigate risks, while those who deploy models must assess their impact annually and alert consumers when AI makes a decision that affects them. However, pressure from businesses and tech companies has prompted the General Assembly to consider relaxing a requirement for annual impact assessments and other burdens.Minnesota. Minnesota moved early in 2023 by prohibiting deepfake election interference. Now the legislature is considering a bill that would ban use of AI to remove clothing from photos of people or set prices dynamically based on personal behavior. In August, a law will take effect that prohibits health insurance companies from using AI to deny care without a review by a relevant doctor. New York. This state has established some of the nation’s most stringent AI regulations, from early protections against deepfakes to broader restrictions in 2026. Starting in January 2027, model makers that have revenue of over $500 million must observe strict protocols to block users from creating bioweapons or autonomous hacking tools. They must audit these efforts annually and report incidents promptly.Ohio. A law that took effect in late March prohibits use of AI to replicate a person’s voice or likeness to sell a product or produce intimate images without permission. Ohio is considering a bill that would deny AI systems legal personhood and legal rights in the roles of spouse,  manager, or property owner. It is also considering a ban on using AI to coordinate retail and rental prices among competitors.Utah. In 2026 alone, the Utah legislature passed several bills that refined the state’s 2024 Artificial Intelligence Policy Act. For instance, a bill that’s scheduled to take effect in coming months prohibits platform companies from distributing nonconsensual, sexually explicit deepfakes. Another prohibits health insurers from using AI to deny care without a doctor’s input. The state lets AI companies apply for temporary relief from certain regulations while they test new technology under regulatory supervision. Behind the news: The Trump Administration started promoting national regulations over state laws as worries grew that a state-by-state patchwork could impede U.S. leadership in AI. In December, President Trump signed an executive order designed to discourage state-level legislation. The order targets laws that would stifle innovation as well as anti-bias regulations that could be perceived to have a political slant. It threatens to withhold federal funds from states that pass or enforce “onerous” AI laws and urges Congress to block state regulations. In March, it followed up with guidelines for federal legislation. The guidelines support protections for children and controls on electricity price hikes driven by AI data centers’ increasing consumption of energy.Why it matters: An increasingly complex regulatory landscape around AI creates a potential minefield for compliance in the U.S. and contributes to unfocused, contradictory regulation worldwide. A given AI model may be required to pass a bias audit in Colorado, provide watermarking in California, and meet reporting thresholds in New York — all while the federal government moves to preempt these requirements. This jurisdictional tug-of-war increases the cost of building AI systems, adds to the legal risk of deploying new applications and services, and raises the possibility that government funding may be withheld for complying with state mandates the federal government considers onerous.We’re thinking: Some current state-level mandates are sensible. Users should be able to rely on AI companies to preserve their privacy, for instance, and children should be protected from AI slop generated by and for adults. But such requirements should be imposed at the national level. We call on Congress to build a more cohesive, stable regulatory environment.Simulating Diverse Human CohortsIf you want to understand how the public will respond to your offerings, large language models can simulate users who answer questions about capabilities, features, promotions, or prices. However, LLMs don't respond with the range of variations that humans do. Researchers developed a method that prompts LLMs to take on personas with a customizable variety of attitudes.What’s new: Davide Paglieri, Logan Cross, and colleagues at Google proposed Persona Generators. Their approach produces code that prompts an LLM to compose prompts for 25 personas that cover the map.Key insight: Making an LLM take on a human persona typically is a matter of composing an effective prompt (for instance, “Answer the following question as if in politics today, you considered yourself a Democrat. . . .”). However, this approach tends to elicit average responses that don’t reflect the range that a human population would provide — even if the prompt explicitly directs the LLM to adopt specific demographic characteristics. An alternative is to direct a model to modify persona prompts programmatically until they produce output that covers a specific range of opinions, attitudes, or concerns. Given guidelines that define the scope of the persona population (specifically attitudes ranked by degrees of agreement to disagreement), an evolutionary algorithm can push the model to produce a set of prompts that elicit the full range of responses.How it works: The authors used the evolutionary method AlphaEvolve to generate code that (i) generated 25 prompts for personas and (ii) maximized the diversity of their attitudes based on their answers to a set of generated questionnaires.The authors started by using Gemini 2.5 Pro to generate 30 questionnaires on a variety of subject matter such as health care, financial literacy, and conspiracy theories. Each questionnaire included a context (description of the topic), a set of “diversity axes" (such as tolerance of risk or trust in institutions), and questions related to the axes to be answered on a scale between 1 (strongly agree) to 5 (strongly disagree).They created code (initially written by the authors, then updated iteratively by AlphaEvolve) to produce 25 persona prompts per questionnaire.To automate production of the personas’ responses, the authors used Concordia, a library for building agent-based simulations, to prompt Gemma 3-27B-IT. The LLM adopted each persona in turn and responded to the corresponding questionnaire. For each persona, they converted its answers into a vector.To evaluate diversity among the personas that answered each questionnaire, they computed six metrics, such as average distance between any two vectors and the degree to which the population of personas covered all possible responses.AlphaEvolve worked in parallel on 10 different versions of the code, iteratively updating them to maximize the diversity metrics across all the personas. After 500 iterations, the authors chose the code that maximized the average of all diversity metrics.At inference, given a context and a set of diversity axes, the system created 25 diverse personas.Results: Given a fresh context and diversity axes, the resulting personas consistently exceeded the diversity metrics of Nemotron Personas, a large dataset of persona prompts that are based on U.S. demographic statistics, and persona prompts produced by a Concordia memory generator based on generated memories from childhood to adulthood. Given a set of test questionnaires, the authors’ personas covered 82 percent of possible responses, while Nemotron Personas covered 76 percent and Concordia memory generator covered 46 percent.Why it matters: Organizations that aim to expand their audiences can benefit from synthetic personas that broadly reflect public sentiment, and those that create synthetic personas to match their real-world audiences can gain insights from a more diverse crowd. This work shifts the objective from matching training data (which tends to generate the most probable outputs and not the outliers) to covering all desired possibilities. Optimizing the persona generator, rather than individual personas, unlocks a broader representation of likely user behavior.We’re thinking: Synthetic personas offer an intriguing possibility for navigating the product-management bottleneck, the difficulty of deciding what to build when you can build easily by prompting an LLM.

この記事をシェア

関連記事

AI Business★42026年4月16日 01:17

MetaとBroadcom、AIチップ共同開発で大型契約に合意

MetaとBroadcomがAIチップの共同開発に関する大型契約に合意した。主要AI開発企業はNVIDIAへの依存を軽減するため、ここ数ヶ月で複数のチップメーカーと計算リソース契約を結んでいる。

TechCrunch AI2026年4月16日 22:49

メタ、RAM不足によりQuest 3とQuest 3Sの価格を引き上げ

メタ社は、RAM不足を理由に、4月19日からQuest 3S(128GB/256GB)を50ドル、Quest 3を100ドル値上げすると発表した。

The Decoder★42026年4月17日 18:01

北京、メタのManus買収を「陰謀的」と非難し創業者の出国を禁止

中国国家安全委員会は、メタがAIスタートアップManusを20億ドルで買収したことを「陰謀的」な技術基盤流出策と非難し、創業者の国外退去を禁止したとフィナンシャル・タイムズが報じた。

ニュース一覧に戻る元記事を読む