中國網/中國發展門戶網訊 近年來,隨著科技創新發展,人工智能(AI)技術在科學研討中獲得廣泛應用,引發“智能化科研”(AI4R)范式的變革熱潮,即第五科研范式。集網絡、數據與計算于一體的科研信息化基礎平臺在科技創新活動中持續影響著世界科技格式。世界各國非常重視科研信息化基礎平臺的建設,將發展面向新科研范式的新型科研信息化基礎平臺視為堅持全球科技領先、晉陞國家競爭力的關鍵舉措,打造出多類型科研創新要素融會貫通的科研信息化基礎設施,逐漸構成融會數據、計算與模子的整體服務才能,支撐前沿科學研討與科研數字化創新。
文章從科研范式與科研信息化基礎平臺技術架構的概念進手,研討剖析科研范式變革對科研信息化基礎平臺架構帶來的影響,重點剖析第五科研范式下新型科研信息化基礎平臺的技術架構及其面臨的關鍵技術挑戰,瞻望新型科研信息化基礎平臺架構的未來發展趨勢。
科研信息化基礎平臺的內涵與價值
科研信息化基礎平臺內涵
科研信息化基礎平臺與科研范式親密相關。科研范式是常規科學所賴以運作的理論基礎和實踐規范,是從事某一科學的科學家群體所配合遵守的認識論和行為方法。科研信息化基礎“你問你媽幹嘛?”裴母瞪了兒子一眼,想要罵人。她看了一眼一直恭恭敬敬地站在一旁的沉默的兒媳婦,皺著眉對兒子說:平臺集網絡、數據和計算于一體,不僅包含為科學研討供給支撐的網絡、超級計算機、存儲等硬件設施,還包含在硬件設施上安排的系統中間件、基礎軟件和與學科發展緊密結合的應用軟件、科學數據資源等軟環境。
科研信息化基礎平臺的意義與價值
科研信息化基礎平臺是科技創新的中山區 水電行基礎性、戰略性平臺,是現代科學研討不成或缺的基座。它是各國開展新一輪科技競爭的關鍵支撐,對衝破關鍵焦點技術、催生高新技術和推動國家科技創新具有主要意義和價值。歐盟提出并建設歐洲開放科學云(EOSC),將泛歐數據基礎設施、歐洲網絡基礎設施等信息化基礎設施聯合起來,構成一體化的科研信息化基礎平臺,實現對科學數據資產的長期治理;american科教網絡Internet2的下一代信息化基礎設施(NGI)計劃,升級實現300多所年夜學、超級計算中間等科研單元的400 GB/s互聯互通,支撐年夜規模跨地區、跨學科的科研協作。
近年來,嚴重科學衝破越來越依賴于先進的信息化技術與手腕。2017年獲諾貝爾物理學獎的引力波探測,科學家應用超級計算機對成百上千種能夠的引力波觀測數據進行模擬計算,數據與計算飾演著無可替換的感化;2021年末,谷歌公司DeepMind團隊采用AlphaFold 2算法在短短18個月內勝利預測出約100萬物種的超2億種卵白質結松山區 水電構。2024年5月,AlphaFold 3橫空降生,人類能夠以史無前例的原子精度預測出幾乎一切主要生物分子的結構和彼此感化;“中國科技云”面向500米口徑球面射電看遠鏡(FAST)多目標巡天疾速射電暴研討需求,供給高速數據傳輸網絡和自動化數據處理流水線,將數據傳輸、處理時大安 區 水電 行間從15天縮水電短至1天,數據處理效力晉陞1個數量級,推進嚴重科研結果產出。
科研范式的轉變推動科研信息化基礎平臺形式發生變革
科研范式是特定歷史時期科學配合體進行科學研討的方法,與科技創新的內在規律請求相適應。在人類科學研討歷史上,已經發生過4次科研范式的轉變。第一科研范式稱為“經驗科學”,重要以記錄和描寫天然現象為特征;第二科研范式稱為“理論科學”,重要通過模子或歸納法進行科學研討;第三科研范式稱為“計算科學”,是指通過計算機模擬計算和仿真來解決分歧學科、領域中的問題;第四科研范式稱為“數據密集型科學”,是指通過對年夜數據進行剖析研討得出相關結論。自第三科研范式開始,信息化與信息技術開始進進科研活動流程。
第三科研范式。從第三科研范式開始,馮·諾依曼體系結構的計算機出現,人們應用計算機的計算才能、基于年夜規模并行的計算機體系結構,通過設計算法并編制法式對復雜現象進行模擬計算和仿真,使復雜問題得以清楚地解釋。在第三科研范式中,超級計算機成為剖析息爭決科學問題的重要平臺,逐漸在科學研討中發揮主要感化,是以第三科研范式被稱為“計算科學”(圖1)。
第四科研范式。隨著數據台北 水電量的爆炸性增長,數據類型也愈發復雜,若何有用處理和應用復雜年夜數據,成為科研難題。為此,圖靈獎得主吉姆·格雷(Jim Gray)提出基于數據密集型科學發現(data-intensive scientific discovery)的科研范式,即第四科研范式(圖2)。在第四科研范式中,年夜數據、年夜算力、算法模子三者結合,以數據為中間,融會應用高速網絡、強年夜算力算法與模子庫的科研信息化基礎平臺在科學研討中發揮主要感化。比擬于第三科研范式的超級計算機,第四科研范式的科研信息化基礎平臺擁有先進的計算東西和剖析模子,不僅能對復雜現象進行模擬仿真,還能疾速剖析總結得出結論,年夜年夜下降了人力資源耗費,科研效力也獲得了顯著晉陞。
第五科研范式。隨著信息技術和傳感技術的疾速發展,科學研討中產生的數據越來越多、形態越來越多樣。在處理和應用復雜年夜數據過程中,第四科研范式碰到良多問題信義區 水電無法解決。科學家開始尋找加倍有用處理年夜數據不確定性和復雜性等問題的新科研范式,程學旗等將其暫時稱之為“第五科研范式”,李國杰將第五科研范式稱為“智能化科研”。在第五科研范式中,AI周全融進科學、技術和工程研討,人機融會、機器涌現智能成為科研的組成部門,構成“人在回路”的人機結合科研形式。面向“智能化科研”范式,亟須通過融會高質量的數據、先進的算法模子和強年夜的計算才能,逐漸構成跨域互聯、存算一體、數智融會、智能調度的新型科研信息化基礎平臺技術架構,實現機器涌現智能、人機物智能融會,以有用應對難解的組合爆炸問題(圖3)。
新型科研信息化基礎平臺技術架構及面臨的關鍵挑戰
面向第五科研范式對科學研討的算法算力、網絡傳輸才能以及數據存儲與治理才能帶來的宏大挑戰,必定構建新型的平臺技術框架,以滿足科學研討發展需求。新型科研信息化基礎平臺的技術架構重要包含智能算力、PB級數據存儲和高吞吐讀寫、跨域軟硬件一體化調度、垂直領域年夜模子和面向AI的高質量數據資源。
智能算力及其面臨的挑戰
第四科研范式的算力重要以中心處理器(CPU)的高并行、高通量的高機能計算和云計算為特征。第五科研范式的到來和中山區 水電疾速發展,以圖形處理器(GPU)和加快卡為代表的算力在AI計算技術中將占據更為主要的地位,在融會了CPU、GPU等的算力基礎設施中,GPU算力的比例預計將年夜年夜進步。或許說,第五科研范式下的智能計算將會以GPU計算且與計算軟件有機融會的軟硬一體為顯著特征。這必定請求新型科研信息化基礎平臺能夠滿足科研全流程中的智能化發展需求,包含科學數據獲取、年夜規模參數學習、模子思維推理等。在原創性算法、方式與理論研討方面,新型科研信息化基礎平臺將智能算力系統的衝破,衝破芯片內部、多卡和多節點等分歧粒度的異構計算調度技術,促進科學研討通用年夜模子和領域專用模子的數據預處理、訓練和推理全過程效力;極年夜拓展基礎算子庫規模與年夜模子訓練基座算力容量,進步硬件系統對AI計算的適配才能,以支撐AI模子高效研發、調試、訓練和推理等關鍵過程。新型科研信息化基礎平臺擬采用開放式和可擴展的架構,重要包括硬件算力基座、中間件系統和應用服務3部門內容(圖4)。針對已有的計算資源,平臺將融會多種類型的智能芯片計算資源,構成軟硬件齊備的驗證台北 水電行環境,支撐團隊疾速開展模子驗證任務。平臺將重點構建可定制的AI、年夜數據處理和并行計算等環境,構成從多源終端需求到異構算力資源再到應用團隊的全鏈條全性命周期的算力聯合體。研討細粒度、彈性和可擴展的調度戰略,以支撐交互式研發、模子訓練與微調、在線或離線推理等類型的計算任務,實現算力資源從時間和空間兩個維度的共享。平臺將構成面向多類型AI業務流水線的科學應用場景,包含數據集準備、模子構建、模子訓練和模子應用等關鍵環節,結合年夜模子或領域模子的個性化需求,支撐數據傳輸與處理、模子訓練與推理、模子與數據結果歸檔等研討過程的自動化,支撐科學研討和技術開發,支撐新科研范式創新發展。
平臺硬件GPU等顯卡加快部件為年夜模子預訓練供給了必須的算力,可是由于其本身無限的顯存或多級存儲部件,限制了可訓練模子參數量的鉅細。是以,若何有用估計顯存鉅細從而防止存儲空間溢出并保證計算正常運行具有主要意義。在年夜模子顯存預算方面,以國產K100_AI為例,640張海光DCU芯片K100_AI的顯存容量累計40960 GB,可有用滿足7 B—70 B參數的年夜模子訓練需求(表1),該類型智能計算卡已支撐GPT-3和LLaMa等年夜模子的預訓練。此外,計算才能需求預算也是年夜模子計算的主要原因。年夜模子訓練中計算才能評估方式重要有剖析和模擬兩種。剖析方式,是通過人工剖析的技術手腕獲取計算需求公式,應用公式直接求出對應計算開銷;模擬方式,是通過應用大批設備進行模擬訓練或實際訓練,在訓練過程中獲取具體計算開銷。通過將二者結合,應用剖析方式下降模擬時的資源耗費,應用模擬方式獲取準確的計算機能數據,再通過混雜建模,高效獲取模子訓練的計算量,進而晉陞模子計算效力和算力資源應用效力(表2)。
為更好適配年夜模子預訓練和海量推理服務等發展需求,平臺的算力規模越來越年夜,單卡機能和效力也越來越高。今朝主流智算平臺的算力規模約為半精度1 000 PF,并逐漸朝著更信義區 水電年夜規模發展;單個計算中間智能計算卡的數量規模從千卡起步,萬卡集群逐漸成為主流,十萬卡規模的集群正在規劃或建設之中。智能計算卡的計算才能和功耗疾速晉陞,顯存容量受年夜規模水電 行 台北參數如千億、萬億甚至更年夜規模參數的影響,單卡顯存容量雖以40 GB或80 GB為主流,但也出現了100 GB以上的產品。與超算平臺的雙精度算力特征分歧,智算平臺重要以半精度和混雜精度進行計算,算力密度更高,能耗效力也更好。
PB級數據存儲和高吞吐讀寫及其面臨的挑戰
近年來,我國嚴重科技基礎設施高速發展,科學數據資源疾速積累,FAST每年約產生50 PB數據,硬X射線不受拘束電子激光在建成后每年將產生100 PB數據,海量科學數據高效存儲、傳輸、處理對傳統的數據中間技術和架構構成了新的挑戰,現有科研信息化基礎平臺無法完整滿足其應用需求。與此同時,AI正融進科學研討的各個環節,AI4R正在成為一種科研活動的新常態。傳統數據中間存儲系統的重要感化是數據存儲及為集群中的計算節點供給共享的存儲空間。但是,由于傳統存儲磁盤介質、接口、協議的限制,其機能僅能達到寫進帶寬數GB/s、延時毫秒級、IOPS幾十萬的程度。科學數據的數量和質量決定了AI4R整體的落地程度。年夜模子時代參數量從最後的百億已增長至千億、萬億規模,數據集也從最後的文本語料擴展到包括圖片、視頻數據等多種類型的訓練樣本,數據容量規模從TB級增長到PB級,GPT-5的訓練數據量預計將達到4 PB。新的年夜模子設置裝備擺設千億甚至萬億級別參數,一個訓練節點每秒就可以處理2萬張圖片大安區 水電行,每個節點需求8萬IOPS。傳統存儲系統無法滿足這樣的需求,第五科研范式下,智算中間的存儲系統需求達到數十PB到百PB級的容量,IOPS需求達到千萬級別、延時達到亞毫秒級、總讀寫帶寬達到數十GB/s甚至百GB/s級別。傳統的TCP/IP網絡存在延遲年夜、屢次數據拷貝和復雜的協議處理等問題,為了達到高吞吐的讀寫機能,智算中間GPU服務器節點每塊GPU卡通過200 GB/s高速RDMA接口與其他設備互聯,肆意一塊GPU卡與其他設備的數據交換最多只要一跳,計算與存儲區域之間通過800 GB/s高速交換機互聯,采用RDMA及NVMe-oF技術直接將數據傳進全閃存儲區,減少數據復制和交換操縱,實現高機能的存儲設備網絡數據訪問和交換。存儲系統通過多臺配備NVMe閃存介質的分布式全閃存儲節點供給同時數據存取服中正區 水電行務的方式以滿足大批計算的并發訪問需求(圖5)。當計算節點往存儲系統上寫數據時,文件將會被根據必定鉅細進行分片寄存到多臺分布式全閃存儲節點上;在應用法式讀取文件時,則并發地從多個分布式全閃存儲節點上讀取數據。由于大批的數據IO請求都被疏散到多臺分布式全閃存儲節點上,使得一切的分布式全閃存儲節點上的磁盤機能和網絡帶寬都可以同時獲得充足應用,存儲系統的聚合帶寬由多臺分布式全閃存儲節點上的IO帶寬相加而成,戰勝了傳統存儲的單一出口點所形成的機能瓶頸,一塊NVMe磁盤即可供給5 GB/s順序讀寫、幾十萬IOPS的訪問機能,一臺全閃存儲節點讀寫機能可達到40 GB/s,100萬IOPS,PB級的全閃存儲集群即可達到總聚合讀寫帶寬數百GB/s,聚合IOPS千萬級別,從而有用保證計算系統之間、計算存儲之間的超高吞吐機能、超低延時,滿足年夜模子訓練超高IO機能的請求。
跨域軟硬件一體化調度及其面臨的挑戰
在第三和第四科研范式中,科學活動在科學數據產生、存儲的地位展開,跨域數據傳輸的需求少。是以,科水電行學數據以離線的方法傳輸,數據產生形式、傳輸需求穩定,傳輸時間需求以天為單位。面向第五科研范式的科學研討,以AI模子為中間,需求海量數據來水電網訓練通用模子或特定領域的模子,跨域數據傳輸是其主要特征之一。在集中式模子訓練環境中,需求將廣域分布存儲的原始數據傳輸到模子訓練集群,作為模子訓練的輸進。但是,在更為廣泛的環境中,由于數據量年夜或許版權問題等,科學數據無法共享和集中,需通過廣域分布式模子訓練來協同完成模子訓練任務。此時,巨量梯度數據跨域傳輸,數據傳輸呈現低熵、年夜突發等特征。
是以,在新科研范式中,數據、網絡和算力為模子服務,而模子則在數據存儲地位、網絡帶寬和算力資源約束的情況下,需動態劃分,以實現機能和台北 水電能效最優。面向科學數據年夜規模存儲、跨域傳輸和高效讀取等特征需求,亟須構建靈活的硬件數據立體與軟件化、智能化的把持立體(圖6)。為此,基于算網融會基礎平臺,對數據存儲、底層計算、信息通訊、模子訓練、知識調大安區 水電用各模塊的系統依賴關系建模,并研發全局最優數據路徑與本錢最優資源調度以及算網融會等關鍵技術,包含多云資源匯聚與共享調度技術、數據存儲資源調度與共享技術等。通過計算任務的充足解耦下沉以及與傳輸路徑、軟硬件平臺的智能最優映射,使得科學數據在網絡高速流轉的過程中可同時被高效地計算處理,以彌補網絡傳輸與數據計算間的機能鴻溝。通過智能軟硬件調度和協同,衝破傳統高熵(多條業務流分時盡力而為共享)網絡傳輸通量低的瓶頸,實現面向算網協同調度的低熵網絡,晉陞網絡傳輸的確定性,實現能效比的指數級晉陞。
具體來說,在算網一體的跨域計算場景中,各計算中間配備了異構的算力集群設置裝備擺設(如GPU和國產算力芯片等),通過廣域網連接實現資源互通。但是,遠距離的地輿限制導致廣域網上的可用帶寬缺乏和波動問題,增添了跨域并行調度的復雜性。若何有用整合這些分布式計算資源,以實現高機能的跨域分布式并行,是推動算力共享和多方協作的焦點問題。可以從3個層面解決該問題。在應用層,針對多種智算任務進行智能任務拆分和自動并行。基于模子特徵、數據分布和網絡狀況,天生高效模子劃分和并行戰略,優化各算力中間的計算與傳輸負載。例如,GPT-3 175 B模子在混雜精度訓練中,采用數據并行方法時需求傳輸約350 GB的梯度;若改用流水線并行,僅需傳輸中間激活值,從而將傳輸量下降至30%以下(批次鉅細為2 048),可在數據中間間的100 GB/s網絡帶寬下滿足傳輸需求。在流量調度層,可通過流量工程技術結合低熵業務流量特徵,優化計算中間間的數據傳輸路徑,以滿足周期性的突發流量需求并有用減少傳輕輕閉上眼睛,她讓自己不再去想,能夠重新活下去,避免了前世的悲劇,還清了前世的債,不再因愧疚和自責而被迫喘息。輸延遲。同時,底層網絡狀態可實時反饋至智能決策系統,使其在網絡狀況發生變化時,靈活調整上層模子的分派戰略,從而實現算網資源和任務需求的高效婚配,晉陞任務執行效力和資源應用率。在底層傳輸中,根據AI流量特徵可進一個步驟優化數據傳輸戰略,例如通過梯懷抱化和稀少化技術下降數據量,并設計基于梯度貢獻度的差異化傳輸協議,通過多路、端網、跨層的協同數據傳輸協議,滿足低時延梯度數據傳輸需求。
垂直領域年夜模子及其面臨的挑戰大安區 水電行
垂直領域年夜模子是指用于解決特定領域科研問題的、參數量較年夜的AI模子。如用水電于解決水電 行 台北卵白質結構預測問題的AlphaFold 2模子、用于解決短臨降水預報問題的NowCastNet模子。垂直領域年夜模子具有兩個明顯區別于通用年夜模子和傳統領域模子的特征——定域性和端到端。相較于通用年夜模子,垂直領域年夜模子普通具有顯著的定域性。垂直領域年夜模子專注于解決特定科研問題,而非尋求通用人工智能(AGI)才能。這種定域性可以顯著下降模子參數量、訓練數據集規模和訓練算力需求。如AlphaFold 2參數量僅為0.93億,訓練數據集鉅細約3 TB,應用單張NVDIA A100顯卡即可訓練。相較于傳統基于數值剖析的領域模子,垂直領域年夜模子具有顯著的端到端特徵。這些年夜模子基于特別設計水電行的類Transformer架構進行端到端訓練(而非傳統領域模子多階段的數值函數擬合),通過單個人工神經網絡模子直接從訓練數據中擬合出特定研討對象之間的相關性,可以有用防止多階段數值函數擬合導致的誤差累積問題。例如,AlphaFold 3直接擬合了PDB數據庫中的一維氨基酸序列、小分子化合物到卵白質三維結構及其配體結構的對應關系。又如NowCastNet直接擬合了氣象雷達數據中云觀測值與降水量之間的對應關系,與傳統基于數值計算的降水預水電測方式比擬,預測效力和準確性年夜幅晉陞且運算開銷年夜幅下降。
高程度垂直領域年夜模子離不開高質量的帶標注領域訓練數據集(如用于AlphaFold訓練的PDB數據庫),以及根據領域問題專門設計的人工神經網絡結構(AlphaFold 2的Evoformer),其對算力的需求反而要小于通用年夜模水電子。是以,構建垂直領域年夜模子的重要挑戰在于:若何針對科研任務的特點設計精緻的神經網絡結構并找到足夠多的、帶標注的高質量訓練數據集。此中,對科研領域訓練數據進行標注,往往不是簡單地為原始數據賦上文本標簽,有時還需求借助專用儀器設備進行。例如,PDB數據庫中的卵白質原子坐標可以被視作是其對應的一維氨基酸殘基序列的標注信息,但需借助冷凍電鏡(cryo-EM)測出。
當然,通用年夜模子也可應用于科研領域,如采用富含領域知識的文本知識庫對通用年夜語言模子進行微調,使其具備答覆特定領域問題的才能。另一種很有發展潛力的年夜模子賦能科研應用的方式是:基于風行的RAG(檢索—增強—天生)范式,進行問答式科學數據剖析。這種基于“通用年夜模子+RAG”的智能化科研應用可實現復雜科學數據剖析流程的自動天生和調校,并可在任務流編排框架(如BigFlow)的支撐下進一個步驟實現對剖析流程所觸及的網絡、計算、模子(含垂直領域年夜模子)及數據資源的自動化婚配調度,從而最終完成復雜科學數據剖析任務的全部旅程自動化在線運行。其優勢在于,年夜幅下降了對領域科學家的編程技術請求,同時也減少了人工參與的需要藍玉華又衝媽媽搖了搖頭,緩緩道:“不,他們是奴才,怎麼敢不聽主人的吩咐?這一切都不是他們的錯,罪魁禍首是女兒,性。這種方式,同樣依賴專中正區 水電業性強的領域文本知識庫(如領域概念體系、數據剖析流程),用于彌補通用年夜模子在特定領域問題上的知識完善。
綜上所述,新型科研信息化基礎平臺應同時供給3類資源:帶標注領域訓練數據集、領域模子結構和必定規模的算力,可用于垂直領域年夜模子的訓練和推理。年夜規模訓練語料和年夜規模算力,可用于通用基礎年夜模子的訓練和推理。領域文本知識庫和任務流編排框架,用于支撐對通用年夜模子進行領域微調以及基于“通用年夜模子+RAG”的智能化科研應用。新型科研信息化基礎平臺在垂直領域年夜模子及智能化科研應用方面的技術架構如圖7所示。
面向AI的高質量數據資源及其面臨的挑戰
高質量的科學數據是天然規律的真實體現,高質量的AI-Ready數據集是讓AI系統能夠懂得、處理、發現科學新道理、新規律的基礎。比擬于今朝重要通用AI模子所應用的互聯網文本、語音、圖像等數據,AI-Ready科學數據模態加倍多樣、價值密度更高、對真實世界的描寫加倍充足,對科技創新甚至國平易近經濟各個行業的智能化發展都具有主要的支撐感化。AI科學應用對科學數據管理提出新的請求。對于AI-Ready科學數據的管理,除傳統的面向領域科學研討的數據質控以及年夜數據管理關注的分歧性、準確性等原因外,還需求強化其數據的平衡性、可用性與機器可懂得性,及面向具體場景的適配性、相關性,以及倫理、平安等合規性原因。面對算法模子的應用需求,現有科學數據集往往面臨資源疏散、知識化程度不高、標準紛歧、共享不充足等問題,必定要完美科學數據多渠道匯聚和整合高質量科學數據資源,晉陞科學數據規范整編、可托流轉、關聯化組織與知識化融會的程度,構成知識嵌進、模子融會、智能調度和流轉供給的高質量AI-Ready科學數據供給才能,建設一批高價值、高靠得住、高影響力的科學數據庫,為智能化科研范式供給高質量數據供給。AI方式也為高質量數據資源建設帶來新的機遇,擴展數據生產的傳統方法。現有科學數據年夜多來源于長期觀測、科學實驗等科學活動,高質量的科學數據往往需求長期積累中山區 水電,受研討條件、大安區 水電實驗環境等原因局限,科學數據的平衡性和質量難以保證。基于物理模子的科學計算可作為科學數據產生的一種補充方法,但受計算深度和精度的限制,尚未廣泛應用于科學數據生產。而隨著新一輪AI水電網技術的爆發,或可衝破現有瓶頸,使得基于物理模子計算的高精度、高質量科學數據生產成為科學數據來源的主要補充。應用AI技術,輔助科學數據的選擇、模擬、分解等,將以較過往更低的本錢實現數據產品的疾速構建,改變高質量科學數據資源格式。
小結
今朝,新型科研信息化基礎平臺仍面臨諸多問題與挑戰。未來,在芯片、存儲、互聯等硬件技術不斷晉陞機能的基礎上,我國亟須通過融會高速寬帶網絡、海量存儲、剖析計算才能,以及基礎軟件、AI模子等軟硬件資源,構建以新型技術架構為基礎的新型科研信息化基礎平臺(圖8),構成支撐科學數據全域剖析處理的全新才能,實現科研要素的泛在、跨域、高速連接與全局智能調度,推動科學數據傳輸、存儲、剖析、計算的保存周期活動,支撐智能化科研新范式,促進AI時代的科技創新。
瞻望
在智能化科研范式中,科學數據是創新的“生產資料”,也是創新要素的主要引擎。新型科研信息化基礎平臺作為支撐新科研范式的基礎設施,是創新的“生產東西”。未來,新型科研信息化基礎平臺技術架構鄙人一個步驟發展的關鍵重要包含如下3個方面:構建面向新科研范式的計算、數據與網絡通訊形式,設計從科學研討意圖抽象到平臺軟硬件的映射,實現平臺體系結構的自演進;通過軟硬件技術架構創新,實現異構計算融會的邏輯一體化存儲計算,以及科學數據的精準智能發現、剖析任務智能編排、可托高效調度和端到端一體化處理,實現科學數據的可發現、可訪問、可互操縱和可重用;打造包涵并蓄、開放共享的服務平臺,實現意圖驅動的任務自動化編排和安排,并根據學科領域模子需求,自動組合各種計算單元、存儲單元、垂直模子及科學數據,構成“人在回路”的智能會話式科研形式,為科技創新供給一體化的新型平臺服務。
(作者:廖方宇、汪洋、曹榮強、張波、王華進、陳昕、王彥棡、魏鑫,中國科學院計算機網絡信息中間;李振宇,中國科學院計算技術研討所;李東,國家天然科學基金委員會。《中國科學院院刊》供稿)