您当前的位置：首页 > 新闻资讯 > m6米乐官网

Spark 30 新特性抢先看

2023-10-18 06:12:08 m6米乐官网

记住 Databricks 研制工程师王耿亮教师去年在共享 Spark 新特性议题的时分，略微透露了一些关于 Spark 3.0 版别特性的内容，但具体的功能细节能重视本年 ASF 和 Apache Spark PMC 终究的发布信息。这儿做一些简略的介绍，具体技术细节请重视 9 月 11 日深圳站 ArchSummit 全球架构师峰会讲演。

发布 Data Source API，其规划是合理的，功能更安稳，批处理和流处理运用一致的 API。其背面的前史原因是，第一个版别的 Data Source API 在完结 Data Source 进程中不是很便利，后来做了 fire for mate。可是流处理的时分又运用另一套 API。所以社区花了许多时刻把 API 都整合起来，后期能兼容各种云数据存储，例如 Hive，Delta 等等。

这是 Databricks 和Intel 我国团队在做的项目（），根据已完结的执行计划节点的统计数据，优化剩下的查询执行计划，它的特点是：削减 Reducer 的数量；将 Sort Merge Join 转换为 Broadcast Hash Join；处理数据歪斜。以下图为例：

这是一个典型的 Spark 恣意操作进程，读取两个文件，而运用 Adaptive Execution 办法之后，避免了存储的进程，功能也有了很大的提高。

许多数据科学家之前在学数据剖析的时分运用 Python 的 Pandas，可是真实到了出产环境，Pandas 只能运行在一台机器上，并且是单线程，功能和可扩展性有限。这样一个时刻段需求转到 Spark，可是遭到 API 差异，所以会有一些限制。

可是后来开源了 Koalas，方针是运用 Pandas API 可以直接运行在 Spark，可以支撑数据科学家更好的无缝迁移到 Spark。

关于 Spark 3.0 新特性的解读，咱们约请王耿亮教师在本年 9 月 11 日 ArchSummit 全球架构师峰会（深圳站）上具体的介绍，包含 Delta Lake 新功能介绍、规划思路细节、用户在运用的进程中遇到的坑（事例），以及解决办法。

上一篇: 华为事件的启思：美国究竟有多少高科技公司？

下一篇: 详解Spark Procpol：一个叫Sam的人要帮MakerDAO

相关新闻

【安全圈】Apache Spark指令注入缝隙安全危险布告 2023-10-16 02:07:31
分布式存储上是否支撑布置Oracle RAC？ 2023-10-16 02:07:39
Hadoop必须了解到的事项有哪些 2023-10-16 02:07:46
spark 布置形式是什么 2023-10-16 02:07:55
华为事件的启思：美国究竟有多少高科技公司？ 2023-10-16 02:08:04
Spark 30 新特性抢先看 2023-10-18 06:12:08

/ms/static/picture/1628473677985724.png

米乐体育下载

地址：广东省鹤山市鹤城镇南洞工业三区

电话：13392513613

传真：0750-8382660

邮箱: xyingxing@163.com

网址：www.hcoly.com

在线咨询