提起Spark這檔子事兒,咱得瑟一下知識庫存。人說高手在民間,咱民間吃瓜群眾也得有個亮瞎眼的瞬間,是不?今天就來給大伙兒秀秀Spark那幾個核心組件的底細,咱自嘲一番,逗大伙兒開心。
要說Spark Driver,那可是彈指神通的主兒,相當于整個Spark集群的“帶頭大哥”。它負責解析應用程序,把一個大任務拆成一堆小任務,分給下面的“小弟們”去執(zhí)行??蓜e小看這位“帶頭大哥”,拆解任務那叫一個快、準、狠,不過偶爾也會鬧個小情緒,比如任務解析失敗,那可就尷尬了。
接下來聊聊Spark Executor,這可是執(zhí)行任務的小弟們。他們分布在各個節(jié)點上,聽從“帶頭大哥”的指揮,兢兢業(yè)業(yè)地執(zhí)行任務。別看他們不起眼,可人家能吃苦,能耐勞,還能互相通信,把執(zhí)行結果匯總起來。這就叫“兄弟齊心,其利斷金”。
Spark SQL這位謀士,擅長數據分析,能把結構化數據處理得服服帖帖。它內置了一個優(yōu)化器,可以把查詢語句優(yōu)化得飛起。不過,有時候這位謀士也會犯迷糊,比如優(yōu)化過度導致性能下降,讓人哭笑不得。
Spark Streaming這信使,負責處理實時數據流。它能實時接收數據,然后分發(fā)給Executor執(zhí)行。這位信使跑得飛快,但偶爾也會摔個跟頭,比如數據延遲,讓人揪心。
最后來說說Spark MLlib這位倉庫管理員,它負責管理機器學習算法庫。這個倉庫里啥都有,分類、回歸、聚類、協(xié)同過濾……總之,你能想到的機器學習算法,它都能給你整出來。不過這位管理員有時候也會犯迷糊,比如算法參數調不好,結果偏差十萬八千里。
Copyright 2024 //www.ahlmtdl.com/ 版權所有 豫ICP備2021037741號-1 網站地圖