高性能計(jì)算集群(英語(yǔ):High-PerformanceComputingCluster,簡(jiǎn)稱HPCC),也被稱為數(shù)據(jù)分析超級(jí)計(jì)算機(jī),是一個(gè)由律商聯(lián)訊風(fēng)險(xiǎn)解決方案發(fā)展的開放源代碼數(shù)據(jù)密集型計(jì)算系統(tǒng)平臺(tái)。
簡(jiǎn)介HPCC(高性能計(jì)算集群)也稱為DAS(數(shù)據(jù)分析超級(jí)計(jì)算機(jī)),是由LexisNexis風(fēng)險(xiǎn)解決方案開發(fā)的開源,數(shù)據(jù)密集型計(jì)算系統(tǒng)平臺(tái)。HPCC平臺(tái)整合了在商品計(jì)算集群上實(shí)現(xiàn)的軟件架構(gòu),為使用大數(shù)據(jù)的應(yīng)用程序提供高性能的數(shù)據(jù)并行處理。HPCC平臺(tái)包括支持并行批處理數(shù)據(jù)處理(Thor)和使用索引數(shù)據(jù)文件(Roxie)的高性能在線查詢應(yīng)用程序的系統(tǒng)配置。HPCC平臺(tái)還包含一個(gè)以數(shù)據(jù)為中心的并行數(shù)據(jù)處理聲明性編程語(yǔ)言ECL。1
系統(tǒng)架構(gòu)HPCC系統(tǒng)體系結(jié)構(gòu)包括兩個(gè)不同的集群處理環(huán)境,每個(gè)集群處理環(huán)境都可以獨(dú)立進(jìn)行優(yōu)化,以實(shí)現(xiàn)并行數(shù)據(jù)處理目的。這些平臺(tái)中的第一個(gè)被稱為數(shù)據(jù)精煉廠,其總體目的是用于任何目的的大量的任何類型的原始數(shù)據(jù)的一般處理,但通常用于數(shù)據(jù)清理和衛(wèi)生,提取,轉(zhuǎn)換,原始數(shù)據(jù)的加載處理,記錄鏈接和實(shí)體解析,大規(guī)模特設(shè)的復(fù)雜分析以及創(chuàng)建鍵控?cái)?shù)據(jù)和索引以支持高性能結(jié)構(gòu)化查詢和數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用程序。數(shù)據(jù)精煉廠也被稱為Thor,這個(gè)大錘象征著把大量的原始數(shù)據(jù)壓縮成有用的信息。Thor集群的功能,執(zhí)行環(huán)境,文件系統(tǒng)和功能與Google和Hadoop MapReduce平臺(tái)類似。
圖1顯示了一個(gè)物理Thor處理集群的表示,該集群充當(dāng)可伸縮的數(shù)據(jù)密集型計(jì)算應(yīng)用程序的批處理作業(yè)執(zhí)行引擎。除了Thor主節(jié)點(diǎn)和從節(jié)點(diǎn)之外,還需要額外的輔助和通用組件來(lái)實(shí)現(xiàn)完整的HPCC處理環(huán)境。
第二個(gè)并行數(shù)據(jù)處理平臺(tái)被稱為Roxie,可用作快速數(shù)據(jù)傳輸引擎。該平臺(tái)設(shè)計(jì)為在線高性能結(jié)構(gòu)化查詢分析平臺(tái)或數(shù)據(jù)倉(cāng)庫(kù),通過(guò)Web服務(wù)接口支持在線應(yīng)用程序的并行數(shù)據(jù)訪問(wèn)處理需求,支持?jǐn)?shù)以千計(jì)的同步查詢和用戶分秒的響應(yīng)時(shí)間。Roxie使用分布式索引文件系統(tǒng)使用優(yōu)化的執(zhí)行環(huán)境和用于高性能在線處理的文件系統(tǒng)來(lái)提供對(duì)查詢的并行處理。Roxie集群與Hadoop的功能和功能類似,增加了HBase和Hive功能,并提供近乎實(shí)時(shí)的可預(yù)測(cè)查詢延遲。Thor和Roxie集群都使用ECL編程語(yǔ)言來(lái)實(shí)現(xiàn)應(yīng)用程序,從而提高了連續(xù)性和程序員的生產(chǎn)力。
圖2顯示了一個(gè)物理Roxie處理集群的表示,該集群充當(dāng)高性能查詢和數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用程序的在線查詢執(zhí)行引擎。Roxie集群包含多個(gè)節(jié)點(diǎn),其中包含用于處理查詢的服務(wù)器和工作進(jìn)程;一個(gè)稱為ESP服務(wù)器的附加輔助組件,為外部客戶端訪問(wèn)群集提供接口;以及在HPCC環(huán)境中與Thor群集共享的其他常用組件。雖然Thor處理集群可以在沒(méi)有Roxie集群的情況下實(shí)施和使用,但是包含Roxie集群的HPCC環(huán)境還應(yīng)該包含Thor集群。Thor集群用于構(gòu)建Roxie集群使用的分布式索引文件,并開發(fā)將與索引文件一起部署到Roxie集群的在線查詢。2
軟件架構(gòu)HPCC軟件體系結(jié)構(gòu)包含Thor和Roxie集群以及通用中間件組件,外部通信層,提供最終用戶服務(wù)和系統(tǒng)管理工具的客戶端接口,以及支持監(jiān)視和輔助文件系統(tǒng)加載和存儲(chǔ)的輔助組件來(lái)自外部的數(shù)據(jù)。HPCC環(huán)境只能包含Thor集群,或Thor和Roxie集群。整個(gè)HPCC軟件體系結(jié)構(gòu)如圖3所示。2
本詞條內(nèi)容貢獻(xiàn)者為:
陳紅 - 副教授 - 西南大學(xué)