下載手機(jī)汽配人

impala為什么比spark快

問(wèn) 提問(wèn)者:網(wǎng)友 2018-08-25
最佳回答
應(yīng)該不會(huì),Impala是相當(dāng)專注于傳統(tǒng)企業(yè)客戶和OLAP和數(shù)據(jù)倉(cāng)庫(kù)工作負(fù)載。Shark支持傳統(tǒng)OLAP。 比較: 一、總體上 Shark擴(kuò)展了Apache Hive,大大加快在內(nèi)存和磁盤上的查詢。而Impala是企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng), 可以很好地使用Hive/ HDFS,從架構(gòu)層來(lái)說(shuō),類似于傳統(tǒng)的并行數(shù)據(jù)庫(kù)。這兩個(gè)系統(tǒng)有著很多共同的目標(biāo),但也有很大差異。 二、與現(xiàn)有系統(tǒng)的兼容性 Shark直接建立在Apache/Hive代碼庫(kù)上,所以它自然支持幾乎所有Hive特點(diǎn)。它支持現(xiàn)有的Hive SQL語(yǔ)言,Hive數(shù)據(jù)格式(SerDes),用戶自定義函數(shù)(UDF),調(diào)用外部腳本查詢。因?yàn)镮mpala使用自定義的C++運(yùn)行,它不支持Hive UDF。這兩個(gè)系統(tǒng)將會(huì)與許多BI工具整合,這一直是Impala的主要目標(biāo)。Shark正在被用于一些BI工具,如Tableau,不過(guò)這并沒(méi)有被探索更多。 三、內(nèi)存中的數(shù)據(jù)處理 Shark允許用戶顯式地加載在內(nèi)存中的數(shù)據(jù),以加快查詢處理,其內(nèi)存使用有效率的,壓縮的面向列的格式。Impala還沒(méi)有提供在內(nèi)存中的存儲(chǔ)。 四、容錯(cuò) Shark被設(shè)計(jì)為支持短期和長(zhǎng)時(shí)間運(yùn)行的查詢。它可以從查詢故障恢復(fù)(感謝底層Spark引擎)。Impala目前是更側(cè)重于短查詢,不容錯(cuò)(如果節(jié)點(diǎn)發(fā)生故障,查詢必須重新啟動(dòng),對(duì)短查詢來(lái)說(shuō)這無(wú)疑是可以接受的)。 五、性能 做全面的比較太早了點(diǎn)。Shark和Impala都報(bào)告比Hive快10-100倍,但這都依賴具體情況和系統(tǒng)負(fù)載。兩個(gè)項(xiàng)目也都在未來(lái)6個(gè)月內(nèi)會(huì)做重要優(yōu)化。以我們的經(jīng)驗(yàn)來(lái)看,Sharkr當(dāng)前版本,如果是內(nèi)存的數(shù)據(jù)一般比Hive快100倍,如果是磁盤上的數(shù)據(jù)一般快5-10倍,這取決于查詢(帶關(guān)聯(lián)連接的查詢,能比Hive快很多)。
回答者:網(wǎng)友
產(chǎn)品精選
在移動(dòng)端查看: impala為什么比spark快
搜索問(wèn)答
還沒(méi)有汽配人賬號(hào)?立即注冊(cè)

我要提問(wèn)

汽配限時(shí)折扣

本頁(yè)是網(wǎng)友提供的關(guān)于“impala為什么比spark快”的解答,僅供您參考,汽配人網(wǎng)不保證該解答的準(zhǔn)確性。