通用banner
您当前的位置 :首页 > 新闻资讯 > m6米乐官网登录网站

数据剖析东西篇――Spark核算原理

2024-09-06 09:01:47 m6米乐官网登录网站

  Hadoop的MR结构和YARN结构是大数据年代的第一代产品,满意了咱们在离线核算上的需求,可是针对实时运算却存在缺乏,为满意这一需求,后来的大佬研发了spark核算方法,大大的提高了运算功率。

  Cluster Manager:在standalone形式中即为Master主节点,操控整个集群,监控worker。在YARN形式中为资源管理器担任分配资源,有点像YARN中ResourceManager那个人物,大管家握有一切的干活的资源,归于乙方的总包。 WorkerNode:能够干活的节点,听大管家ClusterManager派遣,是真实有资源干活的主。从节点,担任操控核算节点,发动Executor或许Driver。 Executor:在WorkerNode上起的一个进程,相当于一个包工头,担任预备Task环境和履行。 Task:担任内存和磁盘的运用。Task是施工项目里的每一个详细的使命。 Driver:统管Task的发生与发送给Executor的,运转Application 的main()函数,是甲方的司令员。 SparkContext:与ClusterManager打交道的,担任给钱请求资源的,是甲方的接口人。

  Sparkcontext的效果:一是分发task,请求资源等功用外,更重要的一个功用是将RDD拆分红task,即制作DAG图。

  stage的区分是触发action的时分从后往前区分的,所以本图要从RDD_G开端区分。 RDD_G依靠于RDD_B和RDD_F,随机决议先判别哪一个依靠,可是关于成果无影响。 RDD_B与RDD_G归于窄依靠,所以他们归于同一个stage,RDD_B与老爹RDD_A之间是宽依靠的联系,所以他们不能区分在一起,所以RDD_A自己是一个stage1; RDD_F与RDD_G是归于宽依靠,他们不能区分在一起,所以终究一个stage的规模也就限制了,RDD_B和RDD_G组成了Stage3; RDD_F与两个爹RDD_D、RDD_E之间是窄依靠联系,RDD_D与爹RDD_C之间也是窄依靠联系,所以他们都归于同一个stage2; 履行过程中stage1和stage2相互之间没有前后联系所以能并行履行,相应的每个stage内部各个partition对应的task也并行履行; stage3依靠stage1和stage2履行成果的partition,只要等前两个stage履行完毕后才能够发动stage3; 咱们前面有介绍过Spark的Task有两种:ShuffleMapTask和ResultTask,其间后者在DAG终究一个阶段推送给Executor,其他一切阶段推送的都是ShuffleMapTask。在这个事例中stage1和stage2中发生的都是ShuffleMapTask,在stage3中发生的ResultTask; 尽管stage的区分是从后往前核算区分的,可是依靠逻辑判别等完毕后真实创立stage是早年往后的。也就是说假如从stage的ID作为标识的话,先需求履行的stage的ID要小于后需求履行的ID。就本事例来说,stage1和stage2的ID要小于stage3,至于stage1和stage2的ID谁大谁小是随机的,是由前面第2步决议的。

  Executor是终究运转task的苦力,他将Task的履行成果反馈给Driver,会依据巨细选用不一样的战略:

  每日头条、业界资讯、热门资讯、八卦爆料,全天盯梢微博播报。各种爆料、内情、花边、资讯一扫而光。百万互联网粉丝互动参加,TechWeb官方微博等待您的重视。

  TechWeb微晚报:华为MateXT未发先火,年青人在AI年代应该把握哪些技能

  2024年智能手机商场迎来增加狂欢:全球出货量预破12亿台,AI与折叠屏技能谁将主导未来趋势?

  苹果iPhone 16系列备货8800万台,立异缺乏恐难撑商场预期,是自傲仍是冒险?

  音讯称苹果新款Apple Watch SE和贱价AirPods可能有更高销量

  音讯称苹果智能不会当即推升iPhone 16销量 价格若上涨可能会影响需求

  OpenAI前首席科学家所创AI公司融资10亿美元 估值或到达50亿美元

  iPhone SE 4转向OLED屏后 日本显示屏厂商就将无缘iPhone供应链

  青云QingCloud EHPC 打造即买即用的全流程SaaS化超算服务

  蚂蚁链发布BTN:可将区块链网络吞吐量提高186% 带宽本钱下降80%

  蚂蚁自研数据库OceanBase宣告开源 300万行中心代码向社区敞开