Spark官方于今年11月份新发布了Spark 2.4。那么新版本的Spark都有哪些值得了解的新特性?应对大数据领域的诸多方案,Spark目前是怎样的状况?未来会有怎样的规划?来自Apache Spark PMC的大牛为我们讲述Spark的进击与挑战。
11 月 23 ~ 24 日,GIAC 全球互联网架构大会将于上海举行。GIAC 是高可用架构技术社区推出的面向架构师、技术负责人及高端技术从业人员的技术架构大会。今年的 GIAC 已经有英特尔、腾讯、阿里巴巴、百度、蚂蚁金服、华为、科大讯飞、新浪微博、京东、七牛、美团点评、饿了么、才云、格灵深瞳、Databricks等公司专家出席。本周购买可享门票88折优惠,高可用架构会员低至6折。
在大会前夕,高可用架构采访了2018年 GIAC大数据&AI分论坛 出品人范文臣,就目前大家广泛关注的大数据&AI方面的问题进行了访谈。
范文臣,Apache Spark PMC成员,是Spark 2.4的release manager。在Databricks的工作主要负责Spark开源社区相关工作,包括带领社区开发一些大的功能,审核社区提交的代码,培养社区的活跃贡献者。
范文臣,Apache Spark PMC成员,是Spark 2.4的release manager。在Databricks的工作主要负责Spark开源社区相关工作,包括带领社区开发一些大的功能,审核社区提交的代码,培养社区的活跃贡献者。
高可用架构:范老师,您好,很高兴能采访到您。能否粗略地介绍一下您以及您在Apache Spark PMC所做的事情?
范文臣:我的主要工作内容就是Spark开源社区的维护。包括及时地审阅代码贡献者的提案,解决一些非常棘手的bug,参与一些项目的设计和规划。
高可用架构:能否粗略地介绍一下Spark包含哪些组件?它们各自的作用是什么?
范文臣:Spark作为一个统一的大数据查询引擎,对常见的场景都提供了对应的组件。比如专注于结构化数据查询的SQL组件,机器学习方面的Mllib,流计算方面的Structured Streaming, 图计算方面的GraphX。除了这些内置组件之外,开源社区也开发了一些第三方组件,比如基于SQL组件重新开发的GraphFrame,相比GraphX有不少的性能提升。
高可用架构:Spark今年发布了几个版本,能否粗略地介绍一下增加了哪些让人期待的新特性?
范文臣:Spark今年发布了两个大版本,2.3和2.4,分别是在2月底和11月初发布的。这两个大版本除了持续提升Spark的稳定性、易用性和性能之外,还扩展了Spark的生态圈。2.3引入了Spark on K8s, 让用户多了一种部署Spark的方式。2.3还引入了Pandas UDF,可以让用户在Spark上直接运行Pandas函数。Data Source V2项目也在2.3真正开始启动,旨在方便用户更容易的把各种数据源接入到Spark。一种新的低延迟流处理模式也在2.3推出,那些对微批处理的延迟不满意的用户,现在又多了一种选择。2.4除了继续改善2.3的新特性之外,也有很多令人兴奋的新功能。比如Barrier Execution mode,使得Spark能更方便的和一些深度学习框架做整合。还有高阶函数,有了它用户都能够更容易的处理复杂嵌套数据。Spark的开源社区非常活跃,感谢这些分布在整个世界的Spark代码贡献者,他们的努力让Spark的每个版本都非常的丰富。关于新版本的功能,我在本次GIAC大会有非常详细的介绍,欢迎各位届时莅临。
高可用架构:听到一种我认为非常有意思的观点Hadoop能做到的,Spark都能做到,或者即将都能做到,因此长远来看,Hadoop很有可能会被Spark取代,您是否赞同?您是怎么看的?
范文臣:Hadoop不单单是一个计算引擎,它还有资源调度器YARN,分布式文件系统HDFS,以及庞大的Hadoop生态圈。Spark作为一个计算引擎,确实要比Hadoop MapReduce架构更好,但取代整个Hadoop生态圈不是Spark的目标。目前来看,大数据领域有点减弱了对Hadoop的依赖,比如K8s PK YARN,各种object store PK HDFS。
高可用架构:对于流式计算的场景,Spark Streaming与Storm对比,各自有咋样的优劣?
范文臣:Storm作为最早期的流处理引擎之一,它的设计相比现代流处理引擎确实有些落后。Storm要求研发人员直接编写整个数据流的拓扑结构,开发成本比较高。容错处理方面的设计也不是很高明。Spark Streaming(Structured Streaming)利用Spark高效的作业调度和执行,使用微批模式来处理流数据,提供了相当高的吞吐量,很适合那些对延迟不是很敏感的场景。同时,Structured Streaming提供了非常简单易懂的用户接口,使得开发流处理程序更为容易。
高可用架构:Spark在AI领域发力,跟常用的AI框架MXNet和TensorFlow对比,Spark有咋样的优劣?
范文臣:Spark作为计算引擎,关注点更多在数据处理部分,以及一些简单的机器学习算法。在AI领域,Spark的目标不是去PK其他的AI框架,而是和他们有机结合,融入AI生态圈,帮助用户更更方便的开发AI相关的项目。2.4推出的Barrier Execution mode就是在这个方向做出的努力。关于Spark对于AI的支持,我的同事蒋星博会在本次GIAC大会详细论述这方面。
高可用架构:Spark覆盖的场景越来越广,挑战也慢慢变得大,所以,Spark未来2-3年有咋样的规划?还可能会有哪些令人振奋的特性?
范文臣:现在的大数据开源圈子非常的火热,有许许多多的工程师为开源项目做贡献,让大数据更容易、更低成本地在企业落地。这样一个时间段,怎么样更好的融入大数据生态圈,是每个大数据开源项目都要思考的问题。未来Spark会变得更开放,更易用,和其他大数据组件的整合也会变得更简单,更高效。当然,Spark也会不断地提高个人,在用户看不见的地方也会持续发力,比如更高的性能,更稳定的运行,等等。关于未来版本的功能,我在本次GIAC大会有非常详细的介绍,欢迎各位当面讨论。
高可用架构:最后,作为大数据&AI的出品人,你对于 GIAC 大会有什么寄语或者展望?
范文臣:很谢谢GIAC的邀请,也非常荣幸可成为大数据&AI的出品人。希望GIAC越办越好!
GIAC全球互联网架构大会将于11月23-24日,上海淳大万丽酒店举办,范文臣老师将作为出品人、讲师出席。
本次大会共有 5 大板块方向,20 场技术专题,70 个互联网架构案例。本届GIAC 已确定有英特尔、腾讯、阿里巴巴、百度、蚂蚁金服、华为、科大讯飞、新浪微博、京东、七牛、美团点评、饿了么、才云、格灵深瞳、Databricks等公司专家出席。
范文臣老师所在的专场是大数据&AI专场,精彩议题如下:返回搜狐,查看更加多