久久精品亚洲综合一品|国产精品福利片免费看|国产精品青青青高清在线|亚洲一级大尺码毛片专区|国产精品99精品久久免费|91精品人人槡人妻人人玩|日韩精品久久久久久久久久欠|91福利精品老师国产自产在线

        第九周 深圳市模具廠應(yīng)用 大數(shù)據(jù) hadoop spark

        2019-10-27 17:00:03

        帶著很對(duì)疑問(wèn),到了書(shū)城18樓,


        1、centos 如何開(kāi)啟  8888|888|88|8080|80|22|21等等端口

        2、建立一個(gè)能使用的大數(shù)據(jù)集群最好需要多少臺(tái)服務(wù)器, 而且都是 centos 7.5 的嗎?

        3、區(qū)塊鏈 和 我們學(xué)習(xí)的大數(shù)據(jù)中的 BlocK 有無(wú)聯(lián)系, 64MB 一個(gè) 塊, 還是128M一個(gè)塊。


        復(fù)習(xí)上周


        image.png


        發(fā)送心跳, 告訴 ZooKeeper ,  這個(gè)是有問(wèn)題才動(dòng)手的軟件,  再由ZooKeePer 分配KafKA

        producr 生產(chǎn)者產(chǎn)生數(shù)據(jù), 記錄放入 Kafka .   Topic 的創(chuàng)建, 寫入多少條, 都由 ZooKeeper 管理。

         消費(fèi)者, 也是有

        KAFKA作為一個(gè)集群,  宕機(jī)后, 主節(jié)點(diǎn)宕機(jī)后無(wú)法消費(fèi), 由ZooKeeper負(fù)責(zé)重新選舉。


        zookeeper  安裝  三種模式


        image.png


        /bin  目錄下有很多腳本 , 

        image.png


        Myid 是不一樣的, 每臺(tái)機(jī)都要安裝   ZooKEEPER ,  不同的 ID 

        2888   仲裁通訊

        3888   群首選舉


        每臺(tái)服務(wù)器上都要啟動(dòng)一下,  每臺(tái)機(jī)都需要啟動(dòng)

        image.png


        再看看  偽集群模式,    如果只有一臺(tái)機(jī)器, 也可以配置  zoo1.cfg  ........    僅僅是端口改為不一樣了  2181   3181   4181


        image.png


        啟動(dòng), 一臺(tái)機(jī)器, 也要啟動(dòng)三次  

        image.png


        不同端口模擬不同集群

        image.png



        image.png


        image.png


        image.png

        image.png

        一個(gè)領(lǐng)導(dǎo)者和多個(gè)跟隨者的。



        image.png

        image.png

        image.png

        image.png


        image.png


        image.png


        image.png


        image.png


        image.png


        image.png



        fluke   和 spark 都差不多, 原理還是結(jié)構(gòu)spark ,   rdd  dij  


        image.png


        image.png

        image.png



        復(fù)習(xí)完成,  繼續(xù)SPARK 的學(xué)習(xí)。


        SPARK核心編程模型


        Spark 數(shù)據(jù)運(yùn)算核心機(jī)制:


        image.png



        RDD概述:


        RDD: 彈性分布式數(shù)據(jù)集


        RDD是 SPARK中重要的數(shù)據(jù)結(jié)構(gòu)。

        image.png

        image.png

        什么是  RDD  ,


        顧名思義,從字面理解RDD就是 Resillient Distributed Dataset,即彈性分布式數(shù)據(jù)集。

        它是Spark提供的核心抽象。

        RDD在抽象上來(lái)講是一種抽象的分布式的數(shù)據(jù)集。它是被分區(qū)的,每個(gè)分區(qū)分布在集群中的不同的節(jié)點(diǎn)上。從而可以讓數(shù)據(jù)進(jìn)行并行的計(jì)算

        它主要特點(diǎn)就是彈性和容錯(cuò)性。

        彈性:RDD的數(shù)據(jù)默認(rèn)情況下存放在內(nèi)存中的,但是在內(nèi)存資源不足時(shí),Spark會(huì)自動(dòng)將RDD數(shù)據(jù)寫入磁盤

        容錯(cuò)性:RDD可以自動(dòng)從節(jié)點(diǎn)失敗中恢復(fù)過(guò)來(lái)。即如果某個(gè)節(jié)點(diǎn)上的RDD partition,因?yàn)楣?jié)點(diǎn)故障,導(dǎo)致數(shù)據(jù)丟了,那么RDD會(huì)自動(dòng)通過(guò)自己的數(shù)據(jù)來(lái)源重新計(jì)算該partition。

        RDD來(lái)源:通常是Hadoop的HDFS,Hive 表等等;也可以通過(guò)Linux的本地文件;應(yīng)用程序中的數(shù)組;jdbc(mysql 等);也可以是kafka、flume數(shù)據(jù)采集工具、中間件等轉(zhuǎn)化而來(lái)的RDD。


        image.png

        image.png

        image.png


        總體都在RAM中運(yùn)行的, 現(xiàn)在看看 CACHE ,  


        image.png

        image.png


        image.png


        image.png


        image.png


        不斷的轉(zhuǎn)化, 就是得到  DMG圖,  TSK 何在一起就是   TSK site    ,  最終得到   TSK  scuhle 


        image.png

        image.png





        image.png

        image.png

        image.png

        image.png


        image.png

        image.png

        image.png



        image.png




        下節(jié)課, 講解  spark  讀取  kafka 數(shù)據(jù)進(jìn)行講解














        首頁(yè)
        產(chǎn)品
        新聞
        聯(lián)系
        启东市| 呼图壁县| 永顺县| 论坛| 静乐县| 托克托县| 竹山县| 集安市| 会理县| 兰州市| 汪清县| 潼南县| 合江县| 祁阳县| 讷河市| 钦州市| 林口县| 广灵县| 怀来县| 泗水县| 腾冲县| 华安县| 磐安县| 涿州市| 通城县| 大埔区| 临武县| 大厂| 阳信县| 铁岭市| 龙胜| 铁岭县| 泰来县| 贵定县| 社会| 阳新县| 涟水县| 慈溪市| 海盐县| 清涧县| 同仁县|