2025年に最も閲覧された10の出版物
Amazon Science は 2025 年に最も注目された 10 の出版物を発表し、マルチモーダル基盤モデル「Nova Premier」や音声・テキスト統合アーキテクチャ「Nova Sonic」、そして先端的な AI セーフティフレームワークの導入を明らかにした。
キーポイント
Nova Premier の発表と機能
Amazon の最も能力の高いマルチモーダル基盤モデルであり、100 万トークンのコンテキストウィンドウでテキスト、画像、動画を同時に処理可能。また、教師モデルとして他の Nova モデルの微調整を支援する役割も担う。
Nova Sonic のアーキテクチャ革新
音声とテキストを別々のシステムで処理する従来の方式に代わり、単一のアーキテクチャで両者を統合。これにより低遅延な自然な対話や、ユーザーの割り込みに対応したストリーミング処理を実現している。
先端的 AI セーフティフレームワーク
高度な Frontier モデルの開発に伴うリスクを特定・評価・管理するためのプロセスを確立。具体的には、重大な危害をもたらす可能性のある「クリティカル・キャパビリティ」の閾値設定と、自動および人間による評価戦略を明記している。
Amazon のフロンティアモデル安全性フレームワーク
高度な AI モデルの開発に伴うリスクを特定・評価・管理するためのプロセスを確立し、重大な危害をもたらす可能性のある能力閾値を設定して対策を講じる。
形式検証によるクラウド規模の認可エンジン再構築
Dafny という言語で新しい認可エンジンを記述し、数学的な正しさを保証した上で Java にコンパイルすることで、3 倍のパフォーマンス向上と完全な互換性を達成した。
Amazon Nova 2 の多機能性と拡張思考
テキスト、画像、動画、音声に対応し、最大 100 万トークンのコンテキストを処理できる新モデルファミリーで、速度と精度のバランスを制御可能な「拡張思考」機能を搭載した。
Vulcan の実環境での成功
Vulcan は従来の古典的手法と最先端のコンピュータビジョンを統合し、6 ヶ月以上の実倉庫環境で 12,000 件以上の注文処理に成功しています。
影響分析・編集コメントを表示
影響分析
この発表は、マルチモーダル処理の限界突破と、音声インターフェースの自然さにおける技術的転換点を示しており、業界全体でより高度で安全な AI システムへの期待を高めています。特に、先端的なモデル開発に対するリスク管理フレームワークの公開は、企業レベルでの AI ガバナンスの新たな基準となる可能性があります。
編集コメント
2025 年の注目出版物として、単なる性能向上だけでなく「安全性」や「アーキテクチャの統合」という本質的な課題への取り組みが前面に出ている点が印象的です。
2025年に最も閲覧された10本の論文
基盤モデルの安全フレームワークやクラウド規模での形式検証から、先進的なロボティクスやマルチモーダルAI推論まで、これらは2025年にアマゾンの科学者と共同研究者による論文の中で最も閲覧されたものです。
共有 共有 リンクをコピー
Amazon Nova Premier: テクニカルレポートとモデルカード
Amazon Nova Premierは、アマゾンで最も能力の高いマルチモーダル基盤モデルであり、モデル蒸留のための教師モデルです。Nova Premierは、100万トークンのコンテキストウィンドウでテキスト、画像、動画を処理し、大規模なコードベース、長文ドキュメント、長い動画を単一のプロンプトで分析することを可能にします。
このモデルはまた、顧客がAmazon Bedrockを使用して、高い精度を維持しながら速度とコスト効率を向上させた、Amazon Nova Pro、Nova Lite、Nova Microのカスタマイズ版を作成することを可能にします。すべてのNovaモデルと同様に、Nova Premierは統合された安全対策と責任あるAI実践を備えて構築されており、顧客の信頼、セキュリティ、信頼性へのコミットメントを維持しています。
Amazon Nova Sonic: テクニカルレポートとモデルカード
音声とテキストは従来、別々のAIシステムによって処理されており、遅延が生じ、音声インタラクションの自然さが制限されていました。Amazon Nova Sonicは、音声とテキスト処理を単一のアーキテクチャに統合することでこれを変革し、最先端の音声知能と業界をリードするコストパフォーマンスを実現します。
Nova Sonicは、大規模事前学習済みテキスト・音声モデルの進歩を基盤とし、これら二つのモダリティを融合させて、音声対応AIアシスタントやエージェント、音声認識、音声生成などのアプリケーションを駆動します。統一されたアーキテクチャにより、モデルは生成する音声をユーザー入力の音響コンテキスト(例:トーン、スタイル)や話される内容に適応させることができます。ストリーミングファーストの能力を念頭に設計されたNova Sonicは、自然な話者交代やユーザーの割り込みをサポートする低遅延アプリケーションを可能にし、カスケードシステム上に構築された従来の音声アプリケーションの硬直的な話者交代から解放します。
アマゾンのフロンティアモデル安全フレームワーク
このフレームワークは、より高度で高能力なフロンティアAIモデルの開発に伴って生じる可能性のある潜在的なリスクを、アマゾンが特定、評価、管理するために使用するプロセスを確立します。第一に、誤用された場合に公衆に重大な危害を加える可能性のある一連のモデル能力である、重要能力閾値を規定します。第二に、アマゾンのモデルが重要能力閾値を満たす、または超える能力を示すかどうかを判断するための、様々な自動化および人間参加型の戦略である、重要能力評価について説明します。第三に、モデルが重要能力閾値を満たす、または超える能力を示した場合の、リスク軽減策の開発と実施について詳細に述べます。
形式検証されたクラウド規模の認可
本論文は、Amazon Web Servicesが形式検証を利用してその認可エンジンを再構築し、それが正しく動作するという数学的確実性を提供した方法について説明します。既存のJavaベースのエンジンの正しさを証明するよりも、検証対応プログラミング言語Dafnyで新しいエンジンを書き、その結果を読みやすく慣用的なJavaコードにコンパイルする方が効果的であるとチームは判断しました。チームは現在、正確性と後方互換性の両方の最高の保証を維持しながら、自信を持って機能強化と最適化をデプロイできます。新しいエンジンは2024年に問題なくデプロイされ、顧客は直ちに3倍のパフォーマンス向上を享受しました。
Amazon Nova 2: マルチモーダル推論および生成モデル
Novaモデルファミリーの次世代は、顧客がモデルが問題をどの程度深く考えるかを制御し、特定のニーズに基づいて速度と精度のバランスを取ることを可能にする動的推論機能を導入します。
Amazon Nova 2は、推論、マルチモーダル処理、リアルタイム会話AIにおける多様な企業ニーズを満たすように設計された4つの基盤モデルからなるファミリーです。このファミリーには、設定可能な「拡張思考」コントロールを備えたマルチモーダルモデルであるNova 2 LiteおよびNova 2 Pro;テキスト、画像、動画、音声入力を処理しながらテキストと画像の両方を生成する統合マルチモーダルモデルであるNova 2 Omni;自然な会話AIのための音声対音声基盤モデルであるNova 2 Sonicが含まれます。Nova 2モデルは最大100万トークンのコンテキストを処理し、広範なコードベース、長文ドキュメント、動画を単一のプロンプト内で分析することを可能にします。
Vulcan Pick: ファブリックポッドから対象物をピッキングするロボットシステム
本論文は、多様な物体の取り扱い、高密度に詰め込まれた保管、動的な在庫といったロボットピッキングにおける一般的な課題に対処するとともに、連続的な視覚的フィードバックを用いた3Dシーン理解と適応的動作制御の進歩を紹介します。研究者らは、確立された古典的手法と、コンピュータビジョン、動作計画、カスタマイズハードウェアにおける最先端のアプローチを組み合わせたエンドツーエンドのソリューションを紹介します。その結果生まれたシステムは、実際の倉庫環境で6か月以上稼働し、12,000件以上の顧客注文を処理しています。
再考された統計的検出力計算:効果サイズに関する信念の組み込み
A/Bテストにおいて、統計的検出力は、推定効果の分散と真の効果の分布の両方に依存します。従来の検出力計算は、固定サイズの効果、または「最小検出可能効果」(MDE)を検出する確率を計算します。このような計算は分散の役割を捉えますが、真の効果の分布に関する不確実性は考慮しません。研究者らは、頻度論者のための「事前情報を考慮した平均検出力」とベイジアンのための「ベイズ決定検出力」という二つのアプローチを提示し、検出力計算を効果分布に関する信念に結びつけます。真の効果が正規分布すると仮定した場合、両アプローチは単純な閉形式の式を導き出し、それはほとんどのA/Bテストツールで容易に利用可能なデータを使用して計算できます。
UXAgent: WebデザインのためのLLMエージェントベースのユーザビリティテストフレームワーク
ユーザビリティテストは、ユーザーエクスペリエンス(UX)研究においてWebデザインを評価する基本的な方法です。UXAgentは、UX研究者が実際の被験者を用いた研究を行う前に、そのユーザビリティ研究デザインを評価し、反復改善することを支援します。このシステムは、LLMエージェントモジュールと汎用ブラウザコネクタモジュールを特徴とし、対象ウェブサイトをテストするために数千のシミュレーテッドユーザーを自動生成します。このシステムは、UX研究の結果を、定性的(例:エージェントにその考え方をインタビューする)、定量的(例:アクション数)、動画記録形式で生成することができます。
ニューラルネットワークに不変条件を任せる
モデル検査は、ソフトウェアまたはハードウェアシステムのモデルが特定の仕様を満たすことの数学的証明です。機能的正しさの完全な仕様は、システムが望ましくない振る舞いを回避することを保証する「安全性」特性と、システムがその望ましい目的も達成することを保証する「活性」特性の両方を組み合わせなければなりません。安全性を証明するには適切な帰納的不変条件が必要であり、活性を証明するにはランキング関数による進歩の尺度を示す必要があります。ニューラルモデル検査は最近、形式検証へのデータ駆動型アプローチを導入しましたが、活性特性のみに焦点を当ててきました。本論文では、研究者らはニューラルモデル検査を帰納的不変条件、したがって安全性特性にも拡張し、両方のタイプの証明を共同で表現し、制約ソルバーを使用した学習に適したニューラル証明書アーキテクチャを導入します。
Stow: ファブリックポッドへの商品のロボットパッキング
本論文は、高密度に詰め込まれた棚に商品を配置できる操作システムを提示します。小売における商品の非常に広範な多様性
原文を表示
The 10 most viewed publications of 2025
From foundation model safety frameworks and formal verification at cloud scale to advanced robotics and multimodal AI reasoning, these are the most viewed publications from Amazon scientists and collaborators in 2025.
Share Share Copy link
Amazon Nova Premier: Technical report and model card Amazon Nova Premier is Amazon’s most capable multimodal foundation model and teacher for model distillation. Nova Premier processes text, images, and videos with a one-million-token context window, enabling analysis of large codebases, long documents, and long videos in a single prompt.
The model also enables customers to use Amazon Bedrock to create customized variants of Amazon Nova Pro, Nova Lite, and Nova Micro that maintain high accuracy while offering improved speed and cost efficiency. Like all Nova models, Nova Premier is built with integrated safety measures and responsible AI practices, maintaining our commitment to customer trust, security, and reliability.
Amazon Nova Sonic: Technical report and model card Speech and text have traditionally been processed by separate AI systems, creating latency and limiting the naturalness of voice interaction. Amazon Nova Sonic changes this by unifying speech and text processing in a single architecture, delivering frontier voice intelligence and industry-leading price performance.
Nova Sonic builds on advances in large pretrained text and speech models, fusing the two modalities to power applications such as voice-enabled AI assistants and agents, speech recognition, and speech generation. The unified architecture enables the model to adapt generated speech to the acoustic context (e.g., tone, style) and spoken content of user input. Designed with streaming-first capability in mind, Nova Sonic enables low-latency applications supporting natural turn taking and user interruptions, breaking free from the rigid turn taking of traditional speech applications built on cascaded systems.
Amazon's frontier model safety framework This framework establishes the processes Amazon will use to identify, assess, and manage potential risks that could arise with the development of more advanced and highly capable frontier AI models. First, it specifies critical-capability thresholds, a set of model capabilities that have the potential to cause significant harm to the public if misused. Second, it describes critical-capability evaluations, a variety of automated and human-in-the-loop strategies to determine whether Amazon models demonstrate capabilities that meet or exceed the critical-capability thresholds. Third, it details the development and implementation of risk mitigations when a model demonstrates capabilities that meet or exceed a critical capability threshold.
Formally verified cloud-scale authorization This paper describes how Amazon Web Services used formal verification to rebuild its authorization engine, providing mathematical certainty that it works correctly. Rather than prove correct the existing Java-based engine, the team found it more effective to write a new engine in the verification-aware programming language Dafny and then compile the result to readable, idiomatic Java code. The team can now confidently deploy enhancements and optimizations while maintaining the highest assurance of both correctness and backward compatibility. The new engine was deployed in 2024 without incident, and customers immediately enjoyed a threefold performance improvement.
Amazon Nova 2: Multimodal reasoning and generation models The next generation of the Nova model family introduces dynamic reasoning capabilities that let customers control how deeply models think through problems, balancing speed and accuracy based on their specific needs.
Amazon Nova 2 is a family of four foundation models designed to meet diverse enterprise needs in reasoning, multimodal processing, and real-time conversational AI. The family includes Nova 2 Lite and Nova 2 Pro, multimodal models with configurable "extended thinking" controls; Nova 2 Omni, a unified multimodal model that processes text, images, video, and audio inputs while generating both text and images; and Nova 2 Sonic, a speech-to-speech foundation model for natural conversational AI. Nova 2 models process contexts of up to a million tokens, enabling analysis of extensive codebases, long documents, and videos within a single prompt.
Vulcan Pick: A robotic system for picking targeted objects from fabric pods This paper addresses common challenges in robotic picking, including diverse-object handling, densely packed storage, and dynamic inventories, while introducing advances in 3-D scene understanding and adaptive motion control with continuous visual feedback. The researchers introduce an end-to-end solution that combines proven classical methods with state-of-the-art approaches in computer vision, motion planning, and customized hardware. The resulting system has been operating in a live warehouse environment for over six months, processing more than 12,000 customer orders.
Statistical power calculations revisited: Incorporating beliefs about effect sizes In A/B testing, statistical power depends on both the variance of estimated effects and the distribution of true effects. Traditional power calculations compute the probability of detecting either effects of a fixed size or the "minimum detectable effect" (MDE). While such calculations capture the role of variance, they don't account for uncertainty about the distribution of true effects. The researchers present two approaches — "prior-informed average power" for frequentists and "Bayesian decision power" for Bayesians — that connect power calculations to beliefs about effect distributions. When true effects are assumed to be normally distributed, both approaches yield simple closed-form expressions that can be computed using data readily available in most A/B testing tools.
UXAgent: An LLM agent-based usability testing framework for web design Usability testing is a fundamental method for evaluating web design in user experience (UX) studies. UXAgent helps UX researchers evaluate and iterate their usability study designs before conducting real human-subject studies. The system features an LLM agent module and a universal browser connector module that automatically generate thousands of simulated users to test target websites. The system can generate UX study results in qualitative (e.g., interviewing an agent on how it thinks), quantitative (e.g., number of actions), and video recording formats.
Let a neural network be your invariant Model checking is the mathematical proof that a model of a software or hardware system meets a particular specification. A complete specification of functional correctness must combine both safety properties, which ensure that a system avoids undesired behavior, and “liveness” properties, which ensure that the system also achieves its desired objectives. Proving safety requires an appropriate inductive invariant, whereas proving liveness requires showing a measure of progress via a ranking function. Neural model checking has recently introduced a data-driven approach to formal verification but has focused only on liveness properties. In this paper, the researchers extend neural model checking to inductive invariants and thus safety properties as well, introducing a neural-certificate architecture that jointly represents both types of proofs and is amenable to training using constraint solvers.
Stow: Robotic packing of items into fabric pods This paper presents a manipulation system capable of placing items onto densely packed shelves. The wide diversity of items in the retail setting and the strict business requirements of high storage rates and few defects have historically prohibited warehouse robots from performing this task. The researchers' innovations in hardware, perception, decision making, motion planning, and control have enabled this system to perform more than 500,000 stows in a large e-commerce fulfillment center. The system, which gives robots the ability to compress and manipulate deformable storage spaces, achieves human levels of packing density and speed while prioritizing work on overhead shelves to enhance the safety of humans working alongside the robots.
Large language models (LLMs)
Formal verification
Robotic manipulation
Experimental design
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み