中文字幕在线天|亚洲一区二区三区手机版|少妇中文字幕乱码亚洲影视|最好看的久久综合伊人

      中國基因網(wǎng)您的位置:首頁 >企業(yè)新聞 >

      詳解華為云基因容器服務(wù)GCS

      基因測序,作為“下一個能夠改變世界”的技術(shù),已經(jīng)由實驗室研究演變到臨床使用,為人類預(yù)測罹患多種疾病的可能性,提前預(yù)防和治療疾病提供了一套可靠的方法和手段。而基于基因測序在預(yù)防和治療疾病方面的準確和可靠,基因測序也因此成為了精準醫(yī)療的基礎(chǔ)。據(jù)預(yù)測,基因測序市場未來五年復(fù)合增長率在35%左右,2022年有望突破300億美元。

      基因測序的難題

      然而,雖然基因測序市場火爆異常,但實際上,對于基因測序廠商來說,目前面臨著很多的困難和挑戰(zhàn),具體而言,最主要的就是成本高、效率低、門檻高。

      成本高

      所謂成本高,是指基因測序的基礎(chǔ)設(shè)施成本和運營成本高。不同于傳統(tǒng)的常規(guī)計算,基因計算,需要對海量的數(shù)據(jù)進行非常復(fù)雜的計算。測算一個人的基因,就需要對30億對的DNA進行測算,涉及的算法包括映射、過濾、去重、排列、索引、壓縮、重校驗等等,以HiSeq X10測序儀產(chǎn)生的數(shù)據(jù)為例,一個人30x全基因組樣本數(shù)據(jù)FASTQ文件就會達到200GB ,中間數(shù)據(jù)sam文件大小將超過600GB。這無論對于服務(wù)器的計算還是存儲能力都提出了很高的要求,從而導(dǎo)致IT基礎(chǔ)設(shè)施成本居高不下。同時,對這些IT基礎(chǔ)設(shè)施的維護,也會帶來大量的運維成本。

      效率低

      效率低首先是指計算的效率低,基因測序?qū)馁M大量的時間,據(jù)悉,人類歷史上的第一次的基因測序耗費了6個國家,10年的時間才最終完成,而即使在科技已經(jīng)日新月異的今天,如果采用傳統(tǒng)的IT架構(gòu)和計算框架,在基因數(shù)據(jù)的分析和解讀方面平均也會需要30+小時,這是一個很低的計算效率。其次,是指資源利用率低。基因測序業(yè)務(wù)有明顯淡旺季之分,通常旺季業(yè)務(wù)是淡季的數(shù)倍,這種業(yè)務(wù)的極度不平衡性,也造成了IT基礎(chǔ)設(shè)施的平均利用率的低下。

      門檻高

      基因測序沒有統(tǒng)一標準,生物信息數(shù)據(jù)處理流程復(fù)雜,軟件選擇多,流程差異大,此外,針對不同測序訴求,需要構(gòu)建不同的測序環(huán)境和流程,搭建過程復(fù)雜。因此,僅僅是軟件的部署和分發(fā),對于基因測序廠商中的IT部門就是一個不小的困難和挑戰(zhàn),更不用說基因測序流程的設(shè)計和編排了。

      針對基因測序領(lǐng)域的這些困難和挑戰(zhàn),華為云創(chuàng)造性的推出了以Kubernetes為基礎(chǔ)的基因容器服務(wù)GCS(Gene Container Service)。GCS將基因測序和容器技術(shù)完美地結(jié)合在了一起,為廣大基因測序廠商提供了“更省、更快、更輕松”的云科學計算平臺。GCS是一個三層架構(gòu),第一層是Docker層,這層主要解決基因測序相關(guān)軟件的安裝升級問題,中間層是Kubernetes層,主要解決在多臺節(jié)點上安裝Docker,運行Docker的問題,最上層是流程管理層,主要負責基因測序的流程控制。

      為什么會是容器

      那么,為什么是Docker容器成為了華為云基因測序解決方案的首選呢?這是因為,首先,在基因測序領(lǐng)域,數(shù)據(jù)處理流程復(fù)雜,單步驟就存在多種軟件可選,單軟件也有多版本可選。而在傳統(tǒng)虛機中運行基因測序相關(guān)軟件,不僅需要安裝多種軟件,還需要考慮軟件間版本兼容性,同一軟件多實例間競爭影響等因素。這對于缺乏專業(yè)IT人才的基因測序企業(yè)來說,是一大痛苦。而容器技術(shù)具有使得不同軟件間運行無感知的特性,同一個軟件任意多實例運行也不會相互影響。而且Docker鏡像以軟件為單位, 獨立制作和更新都非常便捷,可以較好的克服多軟件多版本的安裝和配置問題。

      其次,在基因測序的過程中,如果前期調(diào)試流程出現(xiàn)錯誤,將會導(dǎo)致軟件配置改變或者環(huán)境異常,這樣就必須重新搭建和恢復(fù)環(huán)境,同時,軟件的分發(fā)和更新成本也很高。而通過Docker鏡像便捷分發(fā),一次構(gòu)建,隨處可運行的機制,使得本地驗證調(diào)試非常簡便。環(huán)境的切換對Docker程序無影響,從而可以保證運行環(huán)境的一致性以及數(shù)據(jù)處理結(jié)果的可重復(fù)性,而這對于解決基因測序的調(diào)試問題有非常大的幫助。

      最后,按照傳統(tǒng)的基因測序方法,單樣本數(shù)據(jù)處理一般在單機上完成,所以目前普遍使用高規(guī)格機器來執(zhí)行pipeline流程。但這樣的話,多機并發(fā)能力就會不足,如單獨開發(fā)任務(wù)調(diào)度框架,門檻成本和收益也不明顯。同時單機上多任務(wù)并發(fā)能力也受限,無法很好的滿載利用計算資源。但如果采用容器技術(shù),單虛機上就可以同時運行多個Docker容器,這使得多個任務(wù)可以同時在一個VM上執(zhí)行。再加上Kubernetes的資源調(diào)度能力,可以使得多任務(wù)按資源需求平均地在多VM上混合執(zhí)行,這樣,就會最大化利用計算資源。

      因此,有人說基因測序與容器是注定天生的一對,絕對不是夸大其詞。

      基因測序利器

      除了具有容器所帶來的天然優(yōu)勢之外,GCS還具有諸多適合基因測序領(lǐng)域的特點,堪稱基因測序領(lǐng)域不可多得的利器。

      便捷依賴定義

      GCS的流程描述語言非常靈活,結(jié)合容器的特點,可以輕松執(zhí)行基因測序流程的遷移、拷貝,同時,GCS還支持直接Shell方式的命令,因而,可以非常便捷的進行基因測序流程的控制。

      迭代式并發(fā)

      針對基因測序領(lǐng)域高并發(fā)的要求,GCS通過便捷的迭代組合式并發(fā),可以輕松處理并發(fā)任務(wù)場景。例如,通過執(zhí)行變量迭代,一條“echo $(1) $(2)"命令可以迭代出3*2=6個并發(fā)操作。同時,GCS的Shell語法,支持已有流程遷移,還支持用多種迭代描述方式,控制并發(fā)行為。

      跨租戶共享存儲

      GCS還支持跨租戶共享存儲,平臺可以為用戶提供參考組,數(shù)據(jù)庫等公共數(shù)據(jù),并且這些數(shù)據(jù)還可以實現(xiàn)在各個租戶之間的共享,以便于不同用戶之間的協(xié)作。

      親和性調(diào)度

      通過GCS的親和調(diào)度功能,GCS可以把新任務(wù)優(yōu)先投遞到可容納的節(jié)點,配合自動擴縮容,以達成最小的資源消耗。

      集群自動擴縮容

      GCS還具有集群自動擴縮容的能力,當集群無法容納更多的新任務(wù)時,系統(tǒng)會自動新增節(jié)點,當節(jié)點長期空閑時,也會相應(yīng)的刪除節(jié)點,從而既能使系統(tǒng)可以達到最小的資源消耗,又能輕松應(yīng)對業(yè)務(wù)峰值。同時,由于容器運行密度高,因此可以充分利用其計算能力,做到運維零成本。

      動態(tài)并發(fā)

      GCS具有動態(tài)并發(fā)的功能,針對基因測序這樣復(fù)雜的任務(wù),可以根據(jù)實際情況,動態(tài)的將復(fù)雜的任務(wù)切割成若干個簡單的小任務(wù),分配到不同容器中去執(zhí)行,最后再進行合并,從而大大提升了系統(tǒng)應(yīng)對復(fù)雜業(yè)務(wù)流程的能力。

      專業(yè)鏡像倉庫

      在基因測序領(lǐng)域,涉及的工具超過5000多個,皆分布在DockerHub上,為此,GCS支持直接對接全球最大的鏡像倉庫DockerHub,還為用戶提供了華為SWR鏡像倉庫,并支持對接私有倉庫,這將大大方便基因測序領(lǐng)域的用戶使用這些工具。

      GPU

      特別的,GCS還支持GPU混合集群,除了支持GPU任務(wù)之外,還支持普通任務(wù)+GPU任務(wù)的混合調(diào)度,據(jù)了解,這是華為云GCS特有的功能,而且這項功能也會在華為CCE、CCI中得到應(yīng)用。

      流程設(shè)計器

      前面已經(jīng)說過,基因測序流程的設(shè)計復(fù)雜而枯燥,為此,GCS為用戶提供了圖形化的流程設(shè)計器,僅需通過鼠標的拖拽就可以輕松完成基因測序流程的設(shè)計,將基因測序人員從痛苦的流程設(shè)計過程中拉了出來。

      多集群管理

      GCS還具有強大的多集群管理功能,支持任務(wù)間資源隔離,可以輕松實現(xiàn)開發(fā)環(huán)境和生產(chǎn)環(huán)境的隔離,同時,在費用管理上也更便捷。

      除此之外,GCS還支持單群集多用戶的隔離,從集群到節(jié)點到任務(wù)的多維度監(jiān)控,并具有豐富的接口,很方便的就可以進行集成。

      而基于這些特點,GCS可以確保最小資源消耗、充分利用計算能力,實現(xiàn)零成本運維,并提供秒級擴容,萬級并發(fā)專屬集群,零排隊等待時間,可以使全基因組測序(WGS)耗時降低3-5倍,從而實現(xiàn)軟件免安裝,環(huán)境一鍵式重建、標準流程(WDL/SJM/Snakemake)快速遷移、千節(jié)點計算集群搭建由多天降低至半小時等。

      不僅僅是

      而基于GCS,華為云還推出了KubeGene開源項目,把基因容器最核心的部分開源給廣大基因科學領(lǐng)域的企業(yè)和用戶,不僅僅希望通過這種方式能夠直接幫助廣大基因科學的用戶,也希望通過社區(qū)協(xié)作的方式來加速這個項目的發(fā)展,更好的促進基因科學領(lǐng)域的廠商能夠更好的聚焦在自己的業(yè)務(wù)創(chuàng)新上。更希望廣大廠商和用戶能夠?qū)⒒驕y試的流程互相分享,互相借鑒、共同進步,一起共建基因科學的容器生態(tài)。據(jù)華為云介紹,KubeGene項目自從11月中旬在上海KubeCon宣布以來,在GitHub上已經(jīng)吸引到接近80多顆Star,接近20個Fork。

      GCS僅僅是華為云在容器開源領(lǐng)域貢獻的一個小小縮影,實際上,在容器開源領(lǐng)域,華為一直是重要的貢獻者和容器生態(tài)的領(lǐng)導(dǎo)者,在Kubernetes社區(qū),華為貢獻國內(nèi)第一,全球第三,在CNCF&Kubenetes社區(qū),華為貢獻位列全球前四、國內(nèi)第一,擁有Maintainer 12席,華為還是CNCF技術(shù)監(jiān)督委員會九位委員之一,K8S社區(qū)技術(shù)指導(dǎo)委員會十三位委員之一,也是首批KSCP認證廠商。在OCI&Docker&其他社區(qū),華為貢獻全球前三、國內(nèi)第一,擁有Maintainer 7席。華為還是OCI初創(chuàng)成員,容器鏡像格式的規(guī)范和實現(xiàn)的主導(dǎo)者,Kata Container項目發(fā)起者之一,架構(gòu)委員會5席位之一以及CNCF基金會的初創(chuàng)會員、白金會員和CNCF/Kubernetes TOC的成員。

      華為云“有技術(shù)、有未來、值得信賴”,致力于做智能世界的黑土地,基于華為30年技術(shù)積累,華為云在容器和開源領(lǐng)域持續(xù)深耕,也許就是其能夠成為重要貢獻者和領(lǐng)導(dǎo)者的重要原因之一。文/孫浩峰

      鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如有侵權(quán)行為,請第一時間聯(lián)系我們修改或刪除,多謝。

      推薦內(nèi)容