有关Spark和Hadoop孰优孰劣-爱可生

2023-11-01 22:20:34 m6米乐官网

Spark现已替代Hadoop成为最活泼的开源大数据项目，可是，在挑选大数据结构时，企业不能因而就另眼相看

Hadoop和Spark均是大数据结构，都供给了一些履行常见大数据使命的东西，但切当地说，它们所履行的使命并不相同，互相也并不排挤

尽管在特定的情况下，Spark据称要比Hadoop快100倍，但它自身没有一个分布式存储体系

而分布式存储是现在许多大数据项意图根底，它能够将 PB 级的数据集存储在简直无限数量的一般计算机的硬盘上，并供给了杰出的可扩展性，只需求跟着数据集的增大添加硬盘

因而，Spark需求一个第三方的分布式存储，也正是由于这个原因，许多大数据项目都将Spark安装在Hadoop之上，这样，Spark的高档剖析应用程序就能够正常的运用存储在HDFS中的数据了

与Hadoop比较，Spark真实的长处是速度，Spark的大部分操作都是在内存中，而Hadoop的MapReduce体系会在每次操作之后将一切数据写回到物理存储介质上，这是为了承认和确保在呈现一些显着的反常问题时能够彻底康复，但Spark的弹性分布式数据存储也能完成这一点

别的，在高档数据处理（如实时流处理、机器学习）方面，Spark的功用要胜过Hadoop

在Bernard看来，这一点连同其速度优势是Spark越来越受欢迎的真实原因

实时处理意味着能够在数据捕获的瞬间将其提交给剖析型应用程序，并当即取得反应

在各式各样的大数据应用程序中，这种处理的用处渐渐的变多，比方，零售商运用的引荐引擎、制造业中的工业机械性能监控

Spark渠道的速度和流数据处理才能也很合适机器学习算法，这类算法能够自我学习和改善，直到找到问题的抱负解决方案

实际上，尽管Spark和Hadoop存在一些功用上的堆叠，但它们都不是商业产品，并不存在真实的竞赛联系，而通过为这类免费体系供给技术上的支撑获利的公司往往一起供给两种服务

例如，Cloudera 就既供给 Spark 服务也供给 Hadoop服务，并会依照每个客户的需求供给最合适的主张

Bernard以为，尽管Spark发展迅速，但它尚处于起步阶段，安全和技术上的支撑根底设施方还不兴旺，在他看来，Spark在开源社区活泼度的上升，标明企业用户正在寻觅已存储数据的立异用法

特别声明：以上内容(如有图片或视频亦包含在内)为自媒体渠道“网易号”用户上传并发布，本渠道仅供给信息存储服务。

财联社11月1日电，美国总统拜登将于美国中部时刻周三下午3点15分（北京时刻11月2日清晨4点15分）就经济政策宣布讲线

23岁女教师入职数月后自杀逝世遗书提问：不幸福的教师怎能教出活跃达观的孩子

10月交给数据：抱负初次打破10万辆，小鹏交给2万改写单月纪录，问界新M7累计大定超8万

抱负10月交给新车40422辆同比增加302.1% 初次打破四万辆大关

为什么如同自从孩子出世后，你们的爱情就变了？为什么如同自从孩子出世后，你们的爱情就变了？

上一篇: Hadoop、spark、hive的原理及其在金融范畴的使用

下一篇: Spark 24新特性概述

米乐体育下载