大規模研究施設における加速コンピューティングを用いた科学実験のリアルタイム制御
NVIDIAの加速コンピューティング技術により、大規模研究施設での科学実験をリアルタイムで制御・調整できるようになり、研究効率が大幅に向上。
キーポイント
GPUアクセラレーテッドコンピューティングにより、大規模研究施設でのリアルタイム実験制御が実現
データ分析時間を従来の9ヶ月から4時間に短縮し、科学発見のペースを劇的に加速
Vera C. Rubin ObservatoryとLCLS-IIで、天体物理学とX線科学の両分野で画期的なデータ取得能力を実証
影響分析・編集コメントを表示
影響分析
この技術革新は、大規模科学実験におけるデータ処理のパラダイムシフトをもたらし、従来不可能だったリアルタイムフィードバックによる実験制御を可能にした。これにより、科学発見のサイクルが大幅に短縮され、特に天体観測と量子現象の理解において新たな知見の獲得が加速される。
編集コメント
科学実験のリアルタイム制御という従来の限界を突破した点が画期的。特にデータ処理時間の劇的短縮は、科学研究の方法論そのものを変える可能性を秘めている。
独自の科学研究施設を設計・構築する科学者やエンジニアは、類似した課題に直面している。これには、科学的知見を抽出するために現在の計算インフラの容量を超える膨大なデータレートの管理や、実験のリアルタイム駆動が含まれる。これらの課題は科学的発見のインパクトを最大化する上での障害であり、知識の成長ペースを大幅に遅らせている。
NVIDIAの科学者とエンジニアは、これらの施設と協力し、これらの障害を取り除く並列・分散コンピューティング上に構築された新たなソリューションを開発している。この記事では、複雑な物理学の問題を扱いやすい数学的パズルとして定式化し、GPUアクセラレーテッド・サイエンティフィック・コンピューティングから大きな恩恵を受ける注目すべき二つの例、米国エネルギー省関連のNSF-DOE Vera C. Rubin ObservatoryとSLACのLinac Coherent Light Source II (LCLS-II)について詳しく見ていく。
これらの独自かつ大規模な研究施設は、どちらも構築に10年を要し、世界中の科学コミュニティに奉仕する前例のない科学的発見を可能にする。NVIDIAのアクセラレーテッド・コンピューティングと、GPUアクセラレーテッドPythonライブラリであるCuPyおよびcuPyNumericは、実験の操縦(ステアリング)のためのライブフィードバックを可能にしており、これは以前は不可能だった。チームは、南天のリアルタイム「映画」を処理するAccelerated Space and Time Image Analysis (ASTIA)と、cuPyNumericとCuPyを使用してLCLS II実験のリアルタイム制御を実現するX-ray Analysis for Nanoscale Imaging (XANI)を活用した。
以前は9ヶ月かかっていたデータ分析が、4時間で完了した。
天体物理学と超高速X線科学
実験技術の飛躍的進歩により、極めて高いデータ取得レートが可能になり、固有の時間スケール・長さスケールで、かつてないほど多くの対象を捕捉できるようになった。
Vera C. Rubin Observatoryでは、天体物理学者と天文学者は初めて、32億ピクセルのカメラを用いて南天全体を捉え、一晩で2,000個以上の新しい小惑星を発見できるようになった。一方、LCLS IIでは、科学者とエンジニアは電子を駆動し、それらが3kmのトンネルに沿って光子に変換され、超高速X線バーストを用いて原子スケールでの物質の「映画」を作成する。
天体物理学: NSF-DOE Vera C. Rubin ObservatoryのLSSTカメラは、一晩に20テラバイトの画像を生成し、10年間連続稼働して、3〜4日ごとに南天全体をマッピングする。1ヶ月以上にわたって、LSSTカメラはペタバイト規模のデータを蓄積し、10年間の宇宙のタイムラプス映画の作成に使用される。
X線科学: LCLS-IIは、最も強力なX線パルス(毎秒最大100万バースト)を生成し、元のLCLSと比較して輝度を10,000倍向上させる。これにより、物質内部の電子と原子の最も速く、最も小さな動きをマッピングすることが可能になる。LCLS-IIは数日以内にペタバイト規模のX線データを生成し、量子現象の映画を作成し、物質の振る舞いに関する前例のない知見を提供する。
共通の課題: 膨大なデータセットのリアルタイム分析の要求は、従来のシステムを超える計算速度とメモリの両方を必要とする。アクセラレーテッド・コンピューティングは計算速度を提供するが、これらの驚異的な規模の問題を処理するには、依然として分散システムを使用する必要がある。アクセラレーションと専用ネットワークを備えたHPCシステムを利用することで、科学者はこれらの要求を満たすことができる。cuPyNumericを使用することで、プログラマーは、従来のシステム上で動作し、かつ現代のハードウェア機能を活用する単一のプログラミングモデルを利用できるようになる。
完全なワークフロー自動化へ: 両施設はバッチ分析を超え、実験規模に関わらず確実に実行されるモジュール式で高度に並列化されたパイプラインを採用している。データの移動、変換、抽出は自動化され、人間の監視は手動介入やITチューニングではなく、仮説と解釈に集中できる程度になっている。
ソリューション: NVIDIAのアクセラレーテッド・コンピューティングと、GPUアクセラレーテッドPythonライブラリであるCuPyおよびcuPyNumericが組み合わさることで、実験操縦のためのライブフィードバックが可能になった。これは、計算時間が過度に長いために以前は不可能だった。現在、これらの同じ科学分析パイプラインをNVIDIA DGX Grace HopperおよびNVIDIA Blackwell、NVIDIA DGX Spark、NVIDIA RTX PRO上で実行することで、研究者はパフォーマンスとコラボレーションの両方において強力な新たな利点を得ている。
以前は9ヶ月かかっていたデータ分析が、GPU上での分散計算を用いて巧妙に解かれた方程式により、現在では4時間で可能になった。NVIDIA GH200 Grace Hopper SuperchipおよびNVIDIA Blackwellアーキテクチャで利用可能な統一メモリは、GPUアクセラレーションを通じて膨大な問題サイズを解放し、物理パラメータを迅速に抽出する。これらは、自律的な実験と科学分析のためのAIモデルを前例のない速度でトレーニングするために使用される。
Vera C. Rubin Observatory: 加速されたワークフローと迅速な処理
LSSTは、32億ピクセルのカメラで空間と時間の中で空を横断し、南天を捉え、一晩に最大20TBの画像を生成する。毎晩、カメラはこれまで見られたことのない2,000個以上の新しい小惑星を発見する。主な科学的目標は以下の通りである:
正確な時間分解測定による数十億の天体の追跡。
これまで観測されたことのない突発現象(例えば、超新星、地球近傍天体、変光星)の検出と分類。
拡大を続ける宇宙の暗黒物質/暗黒エネルギーの兆候の探索。
南天全体の天体とその時空間における位置の年間リポジトリの作成。世界中のブローカープラットフォームと天文望遠鏡のネットワークにアラートを送信し、個々の星、銀河、ブラックホールのより詳細な追跡観測を取得する。
現在までに、天体物理学および天文学コミュニティは共同で、最大10分でデータを処理するオープンソースのCPUベースのデータ処理パイプラインを開発してきた。各画像の取得にかかる時間は40秒である。世界中の望遠鏡に迅速にアラートを送信し、観測判断を導くためのライブデータ処理には、アクセラレーテッド・コンピューティングが必要である。
これらのステップには、高度な画像較正、基底構築、畳み込み、サブピクセル差分、パターン抽出、および、世界中の天体物理学・天文学コミュニティの科学者・エンジニアによって開発された現在のCPUクラスター処理ワークフローには大きすぎるデータストリームに対するリアルタイム統計的推論が必要である。
これらの目標を加速された時間スケールで実現し、データ処理操作の複雑さを高めるために、NVIDIAとプリンストン大学の科学者およびエンジニアは、Accelerated Space and Time Image Analysis (ASTIA)と呼ばれる加速GPUワークフローを開発している。このワークフローには以下が含まれる:
較正と基底構築: 大規模なCCDデータを迅速に較正してアーティファクトや歪みを除去し、取得した各画像の基底関数を構築して座標マッピングと変換を可能にする。
連鎖変換: ワーピング、畳み込み、背景・画像減算、物体移動、誤差計算(CuPy経由)は、NVIDIA Grace HopperとNVIDIA Grace Blackwellの両方でベンチマークされている。
並列化: バッチまたはインタラクティブセッションとして実行される並列迅速処理(マッピング、物体検出、フィッティング、カタログ化)。数値計算は数分ではなくミリ秒で行われる。
パッケージ化とブローカーアラート: 新天体、軌道情報、座標をカタログ化し、数秒以内に世界中のLSSTコミュニティにグローバルアラートを発行する。
LCLS II: 並列・分散コンピューティングによるスケーリング
LCLS IIでは、超高速X線パルスが、材料および分子内の原子・電子ダイナミクスの映画を生成する。主な科学的課題は以下の通りである:
単一セッションで数十テラバイトに及ぶ3D X線映画の捕捉
散乱データから欠陥、フォノン分散、結晶構造、電子分布、量子現象を特徴付けること。
原文を表示
Scientists and engineers who design and build unique scientific research facilities face similar challenges. These include managing massive data rates that exceed current computational infrastructure capacity to extract scientific insights and driving the experiments in real time. These challenges are obstacles to maximizing the impact of scientific discoveries and significantly slow the pace of knowledge growth.
Scientists and engineers at NVIDIA work with these facilities to develop new solutions built on parallel and distributed computation that remove these blockers. This post will walk through two notable examples of formalizing complex physics problems into tractable mathematical puzzles that benefit greatly from GPU-accelerated scientific computing, involving the U.S. Department of Energy: NSF-DOE Vera C. Rubin Observatory and SLAC’s Linac Coherent Light Source II (LCLS-II).
These unique and massive-scale research facilities both took a decade to build and enable unprecedented scientific discoveries to serve worldwide scientific communities. NVIDIA accelerated computing together with the GPU-accelerated Python libraries CuPy and cuPyNumeric are enabling live feedback for experiment steering, which was previously impossible. The team leveraged Accelerated Space and Time Image Analysis (ASTIA) to process real-time “movies” of the southern sky and X-ray Analysis for Nanoscale Imaging (XANI) using cuPyNumeric and CuPy to achieve real-time steering of LCLS II experiments.
Data analyses that previously took nine months were completed in four hours.
Astrophysics and ultrafast X-ray science
The breakthrough in experimental advancement has enabled extremely high data acquisition rates to capture more objects than ever before, on their intrinsic time- and length-scales.
At the Vera C. Rubin Observatory, for the first time, astrophysicists and astronomists are able to capture the entire southern sky and discover 2,000+ new asteroids per night using a 3.2-billion-pixel camera. Meanwhile, at the LCLS II, scientists and engineers drive the electrons, which are converted to photons along a 3-km tunnel to make movies of materials on the atomic scale using ultrafast X-ray bursts.
Astrophysics: The NSF-DOE Vera C. Rubin Observatory’s LSST camera will produce 20 terabytes of images per night and operate in continuous mode for 10 years to map the entire southern sky every three to four nights. Over the course of one month or more, the LSST camera reaches petabytes of data accumulation that will be used to create the 10-year time-lapse movie of the universe.
X-ray science: The LCLS-II produces the most powerful X-ray pulses—up to 1 million bursts per second—increasing brightness compared to the original LCLS by a factor of 10,000. This enables mapping the swiftest and smallest movements of electrons and atoms inside matter. LCLS-II produces petabyte-scale X-ray data within days to make movies of quantum phenomena and provide unprecedented insights into how matter behaves.
Common challenge: The demand for real time analysis of massive datasets requires both computational speed and memory beyond traditional systems. Accelerated computing provides the speed of computation, but one must still use distributed systems to process the incredible sizes of these problems. By utilizing HPC systems with acceleration and specialized networking, scientists can meet these demands. Using cuPyNumeric, programmers are able to utilize a single programming model that works both on traditional systems and utilizes the modern hardware features.
Towards full workflow automation: Both facilities move beyond batch analysis, favoring modular, highly parallel pipelines that execute reliably regardless of experiment size. Data movement, transformation, and extraction are automated to the degree that human oversight is focused on hypothesis and interpretation, rather than manual intervention or IT tuning.
Solutions: NVIDIA accelerated computing coupled with the GPU-accelerated Python libraries CuPy and cuPyNumeric are together enabling live-feedback for experiment steering, which was previously impossible due to excessively long computations. Now, by running these same scientific analysis pipelines on NVIDIA DGX Grace Hopper and NVIDIA Blackwell, NVIDIA DGX Spark, NVIDIA RTX PRO, researchers are gaining powerful new advantages for both performance and collaboration.
Data analyses that previously took nine months are now possible in four hours through cleverly solved equations using distributed computation on GPUs. Unified memory, available in NVIDIA GH200 Grace Hopper Superchip and NVIDIA Blackwell architecture, unlocks massive problem sizes through GPU acceleration to extract physics parameters quickly. These are used to train AI models for autonomous experiments and science analyses at unprecedented speed.
Vera C. Rubin Observatory accelerated workflow and prompt processing
The LSST traverses the sky in space and time with a 3.2-gigapixel camera to capture the southern sky, producing up to 20 TB of images per night. Every night, the camera will discover 2,000+ new asteroids that have never been seen before. The principal scientific goals include:
Tracking billions of celestial objects with precise time-resolved measurements.
Detecting and classifying transient phenomena that have never been observed before (for example, supernovae, near-Earth objects, and variable stars).
Searching for signatures of dark matter/energy of the ever-expanding universe.
Creating a year-round repository of the objects and their locations in space and time of the complete southern sky. Send alerts to a worldwide network of broker platforms and astronomical telescopes to acquire more detailed follow-up observations of individual stars, galaxies, black holes.
To date, the astrophysics and astronomy communities have jointly developed an open source CPU-based data processing pipeline to process data in up to 10 minutes. The timescale for acquisition of each image is 40 seconds. Live data processing—to promptly send alerts to telescopes around the world and steer observation decisions—requires accelerated computing.
These steps require advanced image calibration, basis constructions, convolutions, subpixel differencing, pattern extraction, and real-time statistical inference on data streams too large for the current CPU cluster processing workflow developed by scientists and engineers from world-wide astrophysics and astronomy communities.
To realize these goals on an accelerated timescale and enable greater complexity in data processing operations, scientists and engineers at NVIDIA and Princeton University are developing an accelerated GPU workflow, called Accelerated Space and Time Image Analysis (ASTIA). This workflow includes:
Calibration and basis construction: Rapidly calibrate massive CCD data to remove artifacts and distortions, and construct basis functions of each acquired image to enable coordinate mapping and transformations.
Chained transformation: Warping, convolutions, background and image subtractions, object movement, error calculations (through CuPy) are benchmarked on both NVIDIA Grace Hopper and NVIDIA Grace Blackwell.
Parallelization: Parallel prompt processing (mapping, object detection, fit and catalog) running as a batch or interactive sessions. Numerical computations happen in milliseconds instead of minutes.
Packaging and broker alert: Catalog new objects, orbit information, coordinates, and issue global alerts within seconds to the worldwide LSST community.
LCLS II: Scaling with parallel and distributed computation
At LCLS II, ultrafast X-ray pulses generate movies of atomic and electronic dynamics within materials and molecules. Major science challenges include:
Capturing 3D X-ray movies across tens of terabytes in a single session
Characterizing defects, phonon dispersions, crystal structures, electron distributions, and quantum phenomena from scattered X-ray patterns at rapid cadence
Delivering live feedback for experiment steering, so scientists can adjust parameters in real time to catch rare dynamic states
This requires processing and analyzing data at the single-pixel, single-event level, with mathematical models that can detect and reconstruct complex atomic motions—all under stringent time constraints. In essence, enabling researchers to watch atoms move in real time.
Ultrafast X-ray analysis of nanoscale imaging (XANI) workflow
At LCLS, NVIDIA and SLAC scientists and engineers developed the pipeline to concurrently process X-ray frames, fit physical models for pixel-wise elements, and rapidly reconstruct the 3D phonon dispersions to extract the thermal, optical, and electrical properties of materials. The analysis leverages pattern-matching, nonlinear fitting, and large-scale reduction to summarize experiment outcomes in a form meaningful for real-time scientific inference and automatic instrument steering.
How does XANI accelerate the stack?
Data ingestion: High-throughput connections rapidly transfer images or experiment data to local cluster, supercomputer, or local DGX Spark storage.
Parallelization: cuPyNumeric achieves efficient parallelization across available resources by strategically partitioning the global data arrays. It then distributes computations by mapping operations on these sub-partitions to separate processing units. The runtime also decomposes the scientific code into a dependency-driven task graph, which enables implicit parallelism and dynamic scheduling of work across all allocated resources.
Operator chains: XANI executes complex transformation graphs (sum, convolution, basis change) as a series of kernels, reducing latency and memory movement overhead. Interoperability through Python-tasks enables embedding of third-party single-GPU Python libraries (CuPy, for example) for data-parallel operations.
Distributed scaling: cuPyNumeric enables array and matrix computations to scale from desktop to thousand-GPU clusters, handling datasets that exceed a single node’s memory—all natively in Python.
Collaboration and control: Researchers access their environment and computational results interactively, monitor GPU/CPU utilization, and profile performance with built-in tools.
Accelerated computation enables physics-informed AI training
The CUDA Python stack provides an integrated solution for:
Developing accelerated mathematical kernels and functions which are widely compatible with the Python ecosystem when existing solutions do not already exist.
CuPy offers GPU-compatible NumPy and SciPy interfaces to enable parallelism on a single GPU to accelerate numerical computations.
cuPyNumeric delivers a familiar NumPy/SciPy interface, which enables distribution of computation across multi GPUs and nodes using advanced runtime management.
XANI uses high-performance array operations and transformation chains, optimized for tasks like matrix math, subpixel warping, and polynomial projection. This package accelerates ultrafast X-ray characterization with GPU kernels and advanced workflow integration.
All of the above mentioned codes are optimized to run on servers based on Grace Hopper and Grace Blackwell. For individual testing and development, running these codes on DGX Spark or RTX PRO provides accelerated results compared to running on CPU systems.
Tips for using GPUs and CUDA Python for science
To use GPUs and CUDA Python to solve scientific problems, follow these strategies:
Identify the key scientific questions, followed by relevant mathematical operations and models that can be solved linearly. Develop a workflow to process the raw data and solve for the models using NumPy, then port to CuPy locally for parallelization. For thousands to billions of computations that require multinode systems, introduce cuPyNumeric to distribute the same code across multiple GPUs and nodes, leveraging the same patterns discussed in this po
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み