華為分布式存儲(chǔ)-化作大數(shù)據(jù)產(chǎn)業(yè)支點(diǎn),撬動(dòng)海量數(shù)據(jù)的無(wú)限潛能
2022中國(guó)移動(dòng)合作伙伴大會(huì)
智慧中臺(tái)生態(tài)創(chuàng)新高峰論壇
在廣州舉行
存儲(chǔ)、計(jì)算、數(shù)據(jù)服務(wù)等
產(chǎn)業(yè)鏈伙伴共聚一堂
期間,華為分布式存儲(chǔ)領(lǐng)域副總裁韓振興圍繞“YB數(shù)據(jù)時(shí)代下,如何打造湖倉(cāng)一體創(chuàng)新存儲(chǔ)底座”主題進(jìn)行探討,重點(diǎn)分享了面向大數(shù)據(jù)湖倉(cāng)一體架構(gòu),華為分布式存儲(chǔ)在軟件、硬件與解決方案上的創(chuàng)新之舉,期望與全產(chǎn)業(yè)共同擁抱新應(yīng)用、新機(jī)遇。
遍地開花的大數(shù)據(jù)應(yīng)用
偌大的城市里,在我們看不見的地方,大數(shù)據(jù)正“悄悄”地改變著人們的生活:
在運(yùn)營(yíng)商,每秒鐘3000萬(wàn)條記錄、每天數(shù)PB的數(shù)據(jù)需要被處理,正在支撐疫情防控、輔助應(yīng)急救災(zāi)、規(guī)避電信詐騙;
在金融業(yè),大型銀行的數(shù)據(jù)湖存儲(chǔ)可達(dá)50PB,正通過(guò)挖掘歷史與實(shí)時(shí)交易日志模型,聯(lián)合分析,提供精準(zhǔn)營(yíng)銷、識(shí)別支付風(fēng)險(xiǎn);
在交通行業(yè),一座中型城市的智慧交通系統(tǒng)每年產(chǎn)生100PB數(shù)據(jù),正依靠車輛軌跡的識(shí)別處理,逐漸實(shí)現(xiàn)智能調(diào)度、提升通行效率。
這些數(shù)字,織起了百姓生活的方方面面,串聯(lián)起每一個(gè)家庭、每一個(gè)人。如今,如山似海的數(shù)據(jù)應(yīng)用、數(shù)據(jù)格式正在涌現(xiàn),而如何聚焦釋放每一比特?cái)?shù)據(jù)所蘊(yùn)含的價(jià)值,是眾多企業(yè)需要反復(fù)深思的問(wèn)題。
韓振興表示:
“
當(dāng)前,企業(yè)的實(shí)時(shí)數(shù)據(jù)流通常匯集在數(shù)據(jù)倉(cāng)庫(kù)中,而更多的歷史數(shù)據(jù)則存儲(chǔ)于數(shù)據(jù)湖??缭胶}(cāng)的分析應(yīng)用帶來(lái)了大量數(shù)據(jù)倒換與搬遷,分析結(jié)果的時(shí)延高達(dá)數(shù)天。實(shí)現(xiàn)湖倉(cāng)數(shù)據(jù)融合存儲(chǔ)、數(shù)據(jù)格式歸一、支持混合負(fù)載,是避免資源浪費(fèi)、提升分析時(shí)效的關(guān)鍵手段。
”
擁抱大數(shù)據(jù)
數(shù)據(jù)存儲(chǔ)該怎么做?
多、雜、亂、慢。
這是大數(shù)據(jù)處理中的四個(gè)關(guān)鍵詞。展開來(lái)看,它闡述了四個(gè)趨勢(shì):數(shù)據(jù)集合的規(guī)模和產(chǎn)生速度持續(xù)提升、數(shù)據(jù)類型與格式更加繁冗、單位數(shù)據(jù)價(jià)值密度不斷降低、數(shù)據(jù)處理難度逐步加大。
為了破解這些問(wèn)題,結(jié)合了數(shù)據(jù)分層、存算分離等理念的湖倉(cāng)一體架構(gòu)應(yīng)運(yùn)而生。它融合了數(shù)據(jù)湖的靈活性與數(shù)據(jù)倉(cāng)庫(kù)的高效率,實(shí)現(xiàn)一份數(shù)據(jù)、一套任務(wù)在湖、倉(cāng)之上無(wú)縫調(diào)度和管理。而在打造這個(gè)敏捷高效的湖倉(cāng)一體架構(gòu)過(guò)程中,作為數(shù)據(jù)最核心的載體,存儲(chǔ)也同步面臨三個(gè)“需要”:
需要開放的數(shù)據(jù)格式。一份數(shù)據(jù)能被多種計(jì)算引擎訪問(wèn),并支持對(duì)接多樣化生態(tài)。
需要數(shù)據(jù)訪問(wèn)的高性能、低時(shí)延。滿足萬(wàn)級(jí)客戶端并發(fā)訪問(wèn),并實(shí)現(xiàn)混合負(fù)載自適應(yīng)。
需要靈活的擴(kuò)展能力。大數(shù)據(jù)規(guī)模增速極快,存儲(chǔ)必須支持EB級(jí)數(shù)據(jù)擴(kuò)展,同時(shí)滿足海量數(shù)據(jù)的存儲(chǔ)成本最優(yōu)。
一路以創(chuàng)新為征帆
化作大數(shù)據(jù)產(chǎn)業(yè)的支點(diǎn)
韓振興表示,華為致力于打造湖倉(cāng)一體的最佳數(shù)據(jù)基礎(chǔ)設(shè)施,在時(shí)代的浪花里懷揣羅盤,勇作大數(shù)據(jù)產(chǎn)業(yè)的引渡人。華為OceanStor Pacific分布式存儲(chǔ)擁有三大創(chuàng)新:
首先是軟件架構(gòu)。體現(xiàn)在兩個(gè)方面:
統(tǒng)一湖、倉(cāng)數(shù)據(jù)格式的訪問(wèn)。通過(guò)存儲(chǔ)支持Hudi,實(shí)現(xiàn)一套存儲(chǔ)數(shù)據(jù)0遷移,既提升數(shù)據(jù)訪問(wèn)效率,也降低存儲(chǔ)成本。
對(duì)混合負(fù)載分而治之。憑借獨(dú)創(chuàng)SmartBalance全均衡系統(tǒng)設(shè)計(jì),能夠自適應(yīng)混合業(yè)務(wù)的多樣I/O模型并采用不同處理方式,輕松應(yīng)對(duì)流式處理、批量分析、查詢檢索、AI訓(xùn)練的全場(chǎng)景,實(shí)現(xiàn)帶寬、IOPS和OPS性能全優(yōu)。
然后是硬件設(shè)計(jì)。順應(yīng)了三個(gè)方向:
更高密的設(shè)計(jì)。從過(guò)去的12盤/U躍升至20盤/U,華為做到單位空間里容納更多介質(zhì)。單位容量密度的提升也映證了“更經(jīng)濟(jì)、更綠色”的存儲(chǔ)理念。
更快的數(shù)據(jù)加速引擎。華為采取先進(jìn)的緩存介質(zhì),構(gòu)建內(nèi)存級(jí)訪問(wèn)效率的分布式高速大緩存,將上層的部分處理算子、查詢過(guò)濾算法下移到存儲(chǔ)側(cè)執(zhí)行,有效節(jié)省了計(jì)算和網(wǎng)絡(luò)的開銷,訪問(wèn)時(shí)延做到僅10+微秒。
更可靠的軟硬協(xié)同。通過(guò)定制化專用部件、專屬Firmware、針對(duì)CPU/內(nèi)存/緩存等核心硬件設(shè)計(jì)的I/O流等,簡(jiǎn)化交付、維護(hù)和生命周期管理難度,部件故障率降低30%。
同樣還有大數(shù)據(jù)解決方案。重構(gòu)在兩個(gè)趨勢(shì):
從存算一體,到存算解耦,再到湖倉(cāng)融合。
第一步跨越,實(shí)現(xiàn)計(jì)算、存儲(chǔ)按需擴(kuò)展,讓專屬的設(shè)備做更專業(yè)的事,幫助客戶TCO大幅降低。
而第二步跨越,實(shí)現(xiàn)數(shù)據(jù)入庫(kù)即可查,華為能做到用戶無(wú)感知的原生HDFS和S3兼容,避免數(shù)據(jù)格式轉(zhuǎn)換,向一湖多云、實(shí)時(shí)分析更進(jìn)一步。
從熱溫冷數(shù)據(jù)分級(jí),到跨域數(shù)據(jù)流動(dòng)。
第一個(gè)層面,驅(qū)使數(shù)據(jù)在一套集群內(nèi)、多套集群間分級(jí)流動(dòng),華為內(nèi)置了ML(機(jī)器學(xué)習(xí))模塊,支持Workload熱度、遷移時(shí)間、磁盤水位等的6個(gè)維度分級(jí)策略。
而第二個(gè)層面,是驅(qū)使數(shù)據(jù)在跨域跨站點(diǎn)間流動(dòng),順應(yīng)“東數(shù)西存”,憑借GFS(全局文件系統(tǒng))實(shí)現(xiàn)跨域數(shù)據(jù)可見可查,無(wú)需人工干預(yù),讓熱溫?cái)?shù)據(jù)存放在東部,而低成本的冷數(shù)據(jù)流動(dòng)到西部。