國家超算互聯網平臺正式上線
數字中國“高速路”
中央紀委國家監委網站 李云舒

“神威·太湖之光”問世以來,各項性能指標持續位居世界前列,實現穩定、可靠、安全運行。圖為工作人員在超級計算機“神威·太湖之光”旁工作。圖片來源:視覺中國
近日,國家超算互聯網平臺正式上線。當前,已有超過170家應用、數據、模型等服務商入駐國家超算互聯網,提供3200余款商品,覆蓋科學計算、工業仿真、AI模型訓練等前沿數字化創新領域。
2023年4月17日,科技部在天津啟動部署國家超算互聯網,提出到2025年底形成技術先進、模式創新、服務優質、生態完善的總體布局。建立國家超算互聯網有何意義?它將如何加快形成新質生產力,為數字中國建設、數字經濟發展提供支撐?記者采訪了國家超級計算濟南中心主任王英龍、清華大學高性能計算研究所副研究員黃震春。
發展超算對國家安全、經濟發展和社會建設有著重要的支撐和保障作用
記者:什么是超算互聯網?
黃震春:超算互聯網是一種以超級計算機和高速互聯網為基礎的國家級高性能計算基礎設施。它以高速網絡互聯地理上分布的超算中心,聚合各超算中心的軟硬件資源,建設超算資源共享與交易平臺,支持算力、數據、軟件、應用等資源的共享與交易。
作為一種先進計算基礎設施,超算互聯網將超級計算機所提供的強大計算能力抽象為更加本質的計算服務,并以一種標準化的形式提供給計算服務的使用者。簡單地講,我們可以將超算互聯網與電力網相類比。電力網制定發電、傳輸、用電的標準規范,構建基本的電力傳輸和交易平臺,將來自火電、水電、風電、核電、光伏等不同來源的電力整合到一起,為工業、農業、居民、科研等各種電力用戶提供即用即得的電力服務。
與電力網類似,超算互聯網通過制定資源接入、共享、交易等規范,構建具備資源共享與交易能力的資源平臺,將來自各級超算中心、算力服務商、科研機構、相關企業等不同來源的算力、數據、軟件、應用等抽象為統一的超算資源并整合到一起,連接超算資源提供者與超算用戶,為科研、生產、生活和國家安全等提供高效專業易用的超算服務。
記者:發展超算的意義是什么?當前我國超算發展水平如何?
王英龍:隨著數字化進程的持續加速,人工智能、數字孿生等技術迅速發展,培育壯大新質生產力,成為破解數字經濟高質量發展難題的一把“關鍵鑰匙”。高性能超級計算機的研發,已成為世界發達國家搶占戰略要地的重要“制高點”。發展超算對攻克“卡脖子”問題,服務高新技術產業發展,服務國家戰略發展需要有著不可替代的作用,對國家安全、經濟發展和社會建設有著重要的支撐和保障作用。
多年來,在政策支持下,我國超算產業堅持“機器、應用、環境”三位一體協調發展策略,在機器研制、關鍵應用、服務環境等方面已處于世界前列。目前,全國范圍內已經建成多個國家超級計算中心,“神威”“天河”“曙光”系列超級計算機多次占據全球超級計算機性能TOP500領先位置。以濟南超算為例,核心設施“山河”超級計算平臺,目前高性能計算能力達60PFlops(每秒6億億次浮點運算),人工智能計算能力達到1000Pops,存儲容量245PB,整體性能居世界先進水平。在2022與2023年度國際超算大會上,“山河”超級計算平臺連續兩年登頂世界IO500榜單,并將IO500世界紀錄提高15倍以上,已持續服務天氣預報與氣候預測、海洋環境模擬分析、信息安全、電磁仿真、工程計算、金融大數據分析、新材料和新能源分析等領域的眾多用戶。
人工智能等技術快速發展,全社會對算力提出更高要求,構建超算互聯網勢在必行
記者:為什么要構建國家超算互聯網?
黃震春:新世紀以來,超級計算機和高速互聯網不斷發展,為面向應用領域的高性能計算環境制造了新的機遇和挑戰,高性能應用平臺的研究與建設也越來越受到關注。從上世紀末開始,我國開展了一系列研究?;诰W格計算技術,我國建設了中國國家網格(CNGrid)、中國教育科研網格(ChinaGrid)等多個高性能計算環境,在一定程度上實現了包括算力資源、數據資源、存儲資源等在內的高性能計算資源共享,支持了先進制造、地質、空間信息、林業、氣象等多個領域的高性能計算應用。其后構建的國家高性能計算環境則更進一步,在網絡帶寬有限的條件下初步實現超算資源和應用的有效聚合,支持了生物醫藥、工業產品設計、數字媒體和文化創意等多個領域的專業應用。近年來,在國家重點研發計劃等支持下,國家超算無錫中心和清華大學聯合國家超算廣州中心、中科院計算機網絡信息中心等國家級超算中心和超算應用單位,共同研究和建設了超算互聯網原型——國家高性能計算環境領域應用平臺。該平臺以100Gbps網絡實現各超算中心的高速互聯,匯聚超過3.6EFlops(每秒360億億次數學計算)的計算能力,通過自主研發的軟件系統實現超算資源的接入、共享和交易,面向數個重點應用領域為遍布全國的國家實驗室等大型研究機構提供以數值模擬為主、兼顧數據分析和智能計算的科研基礎設施服務。
雖然我國超級計算機建設已取得巨大成就,但隨著E級超算的建設以及超算應用的不斷復雜化,我國超算運行也面臨一些新的挑戰,主要表現在四個方面:
首先,超級計算機之間,以及超級計算機及其用戶之間的互聯互通不夠順暢,現有超算間互聯網絡帶寬不能滿足超算資源共享、海量數據傳輸的需求;
其次,超算應用日趨復雜,有些應用場景涉及多過程、多尺度的復雜耦合,以及融合數據驅動的新模式,算法創新需求緊迫;
第三,由于自主可控的超級計算機研制要求和歷史原因,國內主要超算研制團隊采用不同的自主架構并不斷發展,形成不同架構不同系列的超級計算機系統,超算上的各種并行應用軟件需要對不同架構的超級計算機系統進行適配;
最后,超算使用相對困難,應用門檻高,用戶普遍希望超算提供者能夠提供高效、簡單、易用的應用服務平臺。
近年來,我國算力設施建設已取得顯著成績,算力總規模位居全球第二,并且保持著30%左右的年增長率。但面對人工智能等技術的快速發展,全社會對算力提出更高要求。為挖掘我國超算潛力,應對上述挑戰,基于超級計算機和高性能通信網絡構建超算互聯網勢在必行。
通過構建超算互聯網,我們可以建立連接各國家級超算中心的核心資源網,實現計算資源的高效共享和管理;面向國家重大需求,針對重點應用領域,研制支撐領域應用的專業平臺并開展應用;構建自主可控的高性能計算應用平臺服務體系,提供跨超算中心的統一服務能力。超算互聯網的研究與構建,將進一步提升我國超級計算機的應用水平,為國家經濟建設、社會發展、科技創新和國家安全等提供更加強大和易用的超算服務,推動算力賦能千行百業發展。
超算互聯網平臺的構建將為我國算力“新基建”打下可持續發展的基礎
記者:超算互聯網平臺建設沒有經驗可供借鑒,當前超算互聯網平臺建設面臨哪些挑戰?
王英龍:從技術層面來看,超算互聯網仍需要通過高速網絡高效連接來自不同超算中心和資源提供單位的、分布異構的超算資源,需要實現算力、存儲、數據等各種高性能計算資源的共享和高性能計算任務的有效調度。
從人才資源來看,超算互聯網的構建與運營涉及高性能計算、計算機網絡、并行軟件、分布式系統等計算機領域的諸多研究方向,尤其離不開以超算中心為主的超算運營管理與技術開發人才,需要具備相關應用領域和行業專業知識、行業經驗的人才隊伍。
從產業生態來看,超算互聯網構建于超級計算和高速網絡的基礎之上,對相關產業生態的依賴非常明顯,從操作系統、基礎軟件到并行應用軟件的開發與優化,這些都會影響到超算互聯網的構建與運營。
記者:國家超算互聯網平臺會對各行業的創新與高質量發展帶來哪些助力?
黃震春:當前,我國的超算應用總的來講與國外領先水平相比還有較大差距。超算互聯網的最大特點是變提供超算算力為提供超算應用服務,這就帶來了超算互聯網在應用模式上的巨大變化,對超算及其應用的發展具有相當大的推動作用。
超算互聯網的建設,將有效聚集超算軟硬件資源和人才,基于自主可控的高性能芯片和超算系統,研究并行軟件的高效開發、測試、遷移、共享和服務化技術,建立并行軟件開發平臺,支持和鼓勵并行應用軟件的開發。同時,超算互聯網將聚集超算領域和應用領域的人才,共同研發能替代進口的主流應用軟件,將超級計算機的算力封裝成為用于解決實際業務問題的高性能并行軟件服務,從而積累國產超級計算機上豐富的應用軟件資源,逐步實現國產化替代,使寶貴的硬件資源得到有效利用。
超算應用服務是一個高門檻業務,需要大量資源。超算互聯網為超算應用服務提供了一個開放、合作的應用軟件發展平臺,大大降低提供超算服務的門檻,將吸引眾多創業公司以及行業領先企業開展超算技術方面的研發,并建立自己的超算應用服務體系,引導與培育超算資源和服務的商品化和市場化,從而推動超算及應用的發展,取得極大的經濟效益與社會效益。
超算是一項系統工程,需要芯片、操作系統、應用軟件等多個方面的支撐。超算互聯網的建設與發展在有效集中優勢力量,解決超算應用的各個環境環節的核心問題,提升我國算力水平和應用水平的同時,還將有效輻射帶動我國芯片及軟件產業的協同發展,推動我國自主基礎軟硬件產業生態的發展壯大。超算互聯網的技術與推廣經驗還可以支持超級計算和智能計算的結合,建設兼備超級計算與智能計算能力的智能超算網絡,有效推動更廣意義上的算力網絡的建設與產業發展。
新基建、“東數西算”等戰略的實施對于推動算力、算法、數據、應用資源集約化和服務化創新提出了更高要求,對構建提供高端算力服務的一體化先進計算基礎設施提出新的挑戰。超算互聯網的實施和發展,將在國家層面給出實現全國大數據中心一體化協同創新的高質量解決方案,為開啟算力經濟時代的世紀工程提供堅實的基礎,推動新基建、“東數西算”等國家戰略的實施??偟膩碚f,超算互聯網平臺的構建將為我國算力“新基建”打下一個可持續發展的基礎,為實現我國的高質量發展和科技自立自強做出貢獻。
王英龍:超算互聯網建成后,一方面可實現對普通互聯網的“超算賦能”,升級改造;另一方面,通過超算互聯網,可將算力輸送到各個城市、各個企業、千家萬戶,讓大家便利地使用超級計算的算力。
以濟南超算為例,我們正圍繞國家在超算互聯網、中國算力網等領域的規劃部署,積極匯聚行業資源,探索算網管理運營的可持續發展機制,推動形成行業標準規范,培育算力應用的新模式、新場景和新業態,打造超算互聯網在數字政府、生態環境、智能制造、新能源新材料、醫養健康、教育培訓等場景的示范應用,推動科學研究、工程技術、產業發展、社會民生等領域數字化、智能化轉型不斷加速,為數字經濟發展筑基賦能。經過持續科研攻關與探索,濟南超算已在高速網絡通信、網絡資源感知調度、算力網絡融合和安全方面突破了一批關鍵技術。目前,已構建了覆蓋山東省16地市的“山東算網”,并聯合沿黃流域九省區的11所超算中心、計算中心和算力樞紐成立了“黃河流域算網聯盟”,上線了全國首個“黃河工業算力調度服務平臺”。基于覆蓋全省的超算算力底座,我們就可以部署大應用軟件,深入推動算力賦能實體經濟。此外,超算互聯網還會為工業設計、工程仿真、大數據處理、VR/AR等需要大量數據傳輸以及頻繁操作交互的應用提供更好的用戶體驗。