通用banner
您当前的位置 :首页 > 新闻资讯 > m6米乐官网

Spark 30 新特性抢先看

2023-10-18 06:12:08 m6米乐官网

  记住 Databricks 研制工程师王耿亮教师去年在共享 Spark 新特性议题的时分,略微透露了一些 关于 Spark 3.0 版别特性的内容,但具体的功能细节能重视本年 ASF 和 Apache Spark PMC 终究的发布信息。这儿做一些简略的介绍,具体技术细节请重视 9 月 11 日深圳站 ArchSummit 全球架构师峰会讲演。

  发布 Data Source API,其规划是合理的,功能更安稳,批处理和流处理运用一致的 API。其背面的前史原因是,第一个版别的 Data Source API 在完结 Data Source 进程中不是很便利,后来做了 fire for mate。可是流处理的时分又运用另一套 API。所以社区花了许多时刻把 API 都整合起来,后期能兼容各种云数据存储,例如 Hive,Delta 等等。

  这是 Databricks 和Intel 我国团队在做的项目(),根据已完结的执行计划节点的统计数据,优化剩下的查询执行计划,它的特点是:削减 Reducer 的数量;将 Sort Merge Join 转换为 Broadcast Hash Join;处理数据歪斜。以下图为例:

  这是一个典型的 Spark 恣意操作进程,读取两个文件,而运用 Adaptive Execution 办法之后,避免了存储的进程,功能也有了很大的提高。

  许多数据科学家之前在学数据剖析的时分运用 Python 的 Pandas,可是真实到了出产环境,Pandas 只能运行在一台机器上,并且是单线程,功能和可扩展性有限。这样一个时刻段需求转到 Spark,可是遭到 API 差异,所以会有一些限制。

  可是后来开源了 Koalas,方针是运用 Pandas API 可以直接运行在 Spark,可以支撑数据科学家更好的无缝迁移到 Spark。

  关于 Spark 3.0 新特性的解读,咱们约请王耿亮教师在本年 9 月 11 日 ArchSummit 全球架构师峰会(深圳站)上具体的介绍,包含 Delta Lake 新功能介绍、规划思路细节、用户在运用的进程中遇到的坑(事例),以及解决办法。