1.用戶需求
生命科學做為21 世紀最重要的科學分支之一,高性能計算在生命科學的研究和發展中起來非常重要的作用。由于測序技術的飛速發展,人類發現的基因序列數目按照指數級增長,那么對于如此數量龐大的基因進行同源性搜尋,比對,分析,遺傳發育分析等等,往往伴隨著巨大的數據處理量和并行計算量。同時,由于生命科學的研究對象往往是蛋白質和DNA 的大分子,對這些分子的三維結構的預測,動力學特性、熱力學特性、在生命過程中如何發生作用,這些科學問題也要借助于高性能計算機。所以高性能計算機在生命科學研究中,應用非常廣泛,扮演著及其重要的角色。
目前隨著計算機技術的和計算能力的飛速發展,高性能計算機能滿足生命科學的海量計算和數據分析的需求,高性能計算主要運用在生物信息學分析、蛋白質三維結構研究、新藥研發、基因序列測序、蛋白質三維結構結晶等各個方面,高性能計算已經成為現代生命科學發展中必不可少的研究手段。
醫衛信息和數據的安全,同樣也是中國國家信息安全的重要內容。為了應對日益突出的生物安全需求,軍事科學院曾主持設計了“生物安全防御系統”。針對新發傳染病的未來威脅,構建國家戰略層面的傳染病偵察和媒介生物控制平臺,從而形成一整套“安全防御系統”。
利用自主可控技術構建生命信息科學領域的計算、支撐環境是本方案的宗旨
2. 現存問題
根據不同的計算特點和模式,生命科學分為如下應用模式:
1) 生物信息學(序列搜尋比對分析)。
這一領域主要指以蛋白質和核算序列為研究對象,對序列進行同源及相似性搜尋、比對、序列分析、遺傳發育分析等,應用軟件數量巨大(數十種),各種軟件在同源性分析算法上各有特點。
2) 分子動力學。
分子動力學是一套分子模擬方法,該方法在定義原子之間作用勢的基礎上,依靠牛頓力學來模擬分子體系的運動 ,從而探索體系的動力學特性和熱力學特性。
3) 分子對接(藥物設計)。
計算為主分子對接使依據配體與受體作用的“鎖-鑰原理”,模擬小分子配體與受體生物大分子相互作用。通過計算,可以預測兩者間的結合模式和親和力,從而進行藥物的虛擬篩選。
4) 測序儀離線處理。
DNA測序儀是用于測量DNA(基因)序列的高級試驗儀器,是生命科學研究中必不可少的儀器設備、獲得重要科研進展的重要工具。DNA測序儀價格昂貴,其研究過程分為準備試劑,儀器測序到最后的儀器離線處理,從而獲得科學家可以辨識的基因序列,在這個的基礎上,科學家可以利用測量獲得的序列進行拼接、比對、同源性分析等等。
5) 電子顯微鏡圖象處理。
電子顯微鏡是生命科學研究中不可或缺的高級實驗儀器, 其中基于冷凍電鏡和三維重構方法的生物大分子的結構和功能的研究是國際上的研究熱點,而電子顯微鏡所獲得的大量的原始圖象遠遠超過了人- 10 - 的認知范疇,需要借助高性能計算機進行圖象處理,從而獲得人類認知范疇內的實驗數據和圖象。
6) 質譜儀原始資料處理。
在蛋白質科學研究中,科學家需要通過質譜儀和高性能計算機來獲得蛋白質的序列信息,從而實現從蛋白質一級結構到三級結構的研究。
3. 如何解決
針對上述多種生命科學的應用,本著安全、可靠、高效的原則,方案中選擇64位龍騰服務器及胖節點作為計算系統;配置高性能的全光纖 SAN存儲系統.,通過混搭方式完成生命科學中的不同作業流程。
基于龍芯刀片的高性能集群系統,不僅具有Cluster架構的普適性優點,而且更加符合現代高性能計算機對計算密度、能耗、可靠性、易用性等方面的要求,是高性能計算的最佳平臺。
對于峰值性能通常超過數Tflops的大規模并行計算機而言,刀片式集群系統在計算密度、功耗散熱、運營成本、維護成本、可靠性等方面,都明顯優于其他系統,且為系統的擴容升級提供了良好的基礎。
龍芯3A是我國新一代高性能計算機通用CPU,集成了四個64位超標量處理器核、4MB的二級Cache、兩個DDR2/3內存控制器、兩個高性能HyperTransport控制器,可以滿足生命科學中對MPI并行性要求較高的計算需求。