研究紹介

JST CREST 領域名 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化 」
研究課題名 「EBD:次世代の年ヨッタバイト処理に向けたエクストリームビッグデータの基盤技術」

研究代表者 松岡 聡

SatoshiMatsuoka_07_11

Satoshi Matsuoka


「ビッグデータ」の現在の実情はサイロ化された比較的小規模なデータに対する処理が中心だが、将来はオープンデータ化したサイエンス分野のようにサイロが崩壊し、更に IoT 等でデータの量と種別の爆発的な増 加が起こると予想されている。そこでは一見無相関なゼータ~ヨッタバイトに至る非構造なデータに対し高次のO(n×m)のマッチングやグラフや種々の処理を行う必要があり、ペタ~エクサフロップスのシミュレー ションとの同化を行う需要もある。このような要求を我々は Extreme Big Data(EBD)と呼ぶが、EBD はシ ステムに今までにない莫大な計算・容量・バンド幅と同時に、性能ロスが最少でリアルタイム性のサポート、 更には柔軟なシステムソフトウェアやプログラミングを要求するが、現存の IDC・クラウドのインフラ及び スパコンのインフラは不十分である。そこで、我々はそれらの技術の融合(コンバージェンス)を各システムレイヤで革新的に果たし、最終的には現在の Google, Amazon などの IDC が現在保有するデータ処理能力の 10 万倍以上である「ヨッタバイト/年」の処理能力を達成する要素技術とその統合化アーキテクチャの研究 開発を狙う。その鍵となる技術は、不揮発メモリと processor-in-memory 技術の高性能・安価な統合、高バンド幅メニーコアプロセッサの活用、数十万ノードに分散する高速不揮発メモリのスパコン級ネットワークからの超高速・低レーテンシアクセスのハードと低レベルソフトウェアスタック、それらを前提した超分散 の「EBD オブジェクト」と種々のソフトウェアによる管理・最適化・高信頼化と、EBD の利用シナリオに 応じたセマンティックスの実現、さらにはそれらの簡便な利用を可能とする(Map-Reduce に置き換わる)プログラミングレイヤや API の実現、更にはそれらを有効に活用するためのワークフローとリアルタイム性と バッチを共存させてシステムを最適させるスケジューラ、などである。これら要素技術はそれぞれ単独で開 発されるのではなく、EBD の典型的かつ社会的に有用なアプリケーショングループとのコ・デザインで統合的に実現され、かつそれらの中途成果として世界初の EBD スパコンである TSUBAME3.0 が開発される。 TSUBAME2.5, 3.0、および開発されるプロトタイプその上でのシステムスタックの実現およびデモンストレーションにより、広い技術普及と我が国のEBDにおけるリーダーシップの確立を目指す。