大数据的下一个主角是“Spark” 丰田及CIA等纷纷采用

2024-06-14 01:38:28 m6米乐官网

有一款数据处理软件，正式版才公开1年的时间，就已经被“Uber”、“Airbnb”等非常关注的新兴企业和丰田等大规模的公司采用，美国IBM将其称为“今后10年内数据领域最重要的开源软件（OSS）”，并开始为相关项目投入3500名研发人员。这款软件就是“Spark”。

2015年6月15～17日（美国时间），用户大会“2015年Spark峰会”在旧金山市举行，参会用户达到了2000名（照片1）。

在本届大会上，出租车配车服务商UberTechnologies、将民宅作为宾馆出租的Airbnb、丰田的美国法人、百度以及美国中央情报局（CIA）等纷纷介绍了Spark的应用实例。IBM也配合该大会的举办，宣布为Spark相关项目投入3500名研发人员。

Spark是美国加利福尼亚大学伯克利分校开始开发的OSS，目前由该校研究人员创办的初创企业Databricks主导开发。其正式版“Spark1.0”刚刚于1年前，也就是2014年5月公开。

尽管如此，Spark仍开始被视为继大数据处理常用软件“Hadoop”之后的大数据处理新主角。为何Spark会受到如此高的关注呢？下面就按照每个用户在2015年Spark峰会上公开的相关联的内容，介绍一下Spark的现状。

Spark是通过让数十～数百台PC服务器联动来实现大数据高速处理的“分布数据处理软件”。只需增加PC服务器数量即可提高处理性能，因此无需使用昂贵的大型服务器，就能以较低的成本进行大数据处理。

Spark与Hadoop同为分布数据处理软件。Spark的不同之处在于能够高速处理Hadoop不擅长的“机器学习”。在Spark峰会上发表演讲的丰田美国公司（丰田的美国法人，ToyotaUSA）数据科学家BrianKursar表示，“利用Spark，可以使以前要消耗36小时的机器学习处理时间缩短至9分钟”（照片2）。

机器学习是一种由计算机自动从数据中获得知识或规则的技术。丰田美国于2015年4月采用机器学习技术开发出了一种系统，可由计算机依据内容，对“推特”（Twitter）等SNS（社交网络服务）上用户写下的留言进行自动分类。

用户在SNS上针对丰田写下的留言是关于“丰田车性能”的，还是关于“丰田专卖店（经销商）服务”的，亦或是关于“丰田CM”的呢？计算机通过对大数据进行机器学习，自动找出了用来进行这种判断的“规则”。并利用Spark进行了这方面的相关处理。

Kursar称，“SNS上的留言数据非常庞大，由人来查看这一些内容是不可能的。通过开发出这种可自动判断出用户留言内容的系统，可以从庞大的数据中找出有助于改善产品和服务的有益留言”。

机器学习可根据有关数据，采用统计方法，针对计算机制定的“规则”与现实规则的相符程度进行多次验证。Hadoop在每次进行这种验证处理时，都会从硬盘（HDD）中读取数据，或者将数据写入硬盘。因此，要消耗较长时间来处理。

而Spark通过将所需数据保存在存储器上来进行这种验证处理。由于不使用低速硬盘，因此与Hadoop相比，可以缩短处理时间。

而且，Spark还可以与Hadoop共存。原因是Spark可以对Hadoop的标准存储器“HDFS”保存的数据来进行处理。Spark的主要开发者之一、NTTDATA基础系统业务本部的猿田浩辅表示，“Spark可对Hadoop起到补充作用”。对于现有Hadoop用户而言，Spark能够轻松导入，因此该软件在短短1年内就迅速普及开来。

Zaharia称，目前Spark使用顶级规模的企业是中国SNS运营商腾讯（Tencent），该公司在8000台服务器上使用了Spark。中国EC（电商）阿里巴巴集团则使用Spark一次处理高达1PB（PetaByte）的数据。

中国企业对使用Spark非常积极。在中国大型搜索网站百度的美国法人百度美国担任资深架构师的JamesPeng在2015年Spark峰会上登台发表主题演讲，介绍了百度使用Spark的情况（照片3）。Peng表示，百度目前使用1000多台服务器来运行Spark。在互联网广告、搜索、地图服务、EC等业务领域均使用了Spark。

Peng介绍说，“对于百度的机器学习来说，Spark是必不可少的平台”。该公司目前正在考虑扩展Spark，使其能用来以人脑为模型的机器学习方法“深度学习（DeepLearning）”的处理。

此外，Airbnb及Uber等公司也在Spark峰会上发表演讲，介绍了Spark的导入实例。据Airbnb介绍，该公司使用Spark开发出了一种系统，该系统能以天为单位预测全世界不同城市的住宿需求，为房主确定房间价格提供帮助。

在Airbnb网站上，出租房间的价格每天都在发生明显的变化。这些房间的价格是根据Airbnb向房主提供的“定价辅助系统”来确定的。定价辅助系统根据计算机对50亿个住宿有关数据进行机器学习之后制作出来的需求预测模型，向房主建议合理的房间价格。

虽然Uber并未透露在什么业务中使用了Spark，但表示多个业务部门都在使用Spark，同时该公司还介绍了多个部门共同使用Spark时的技术诀窍。

在Spark峰会上大放异彩的是CIA首席信息官（CIO）道格·沃尔夫（DougWolfe）的主题演讲（照片4）。CIA从2014年开始使用Spark，目前已有200台服务器使用Spark。沃尔夫认为，“CIA必须从庞大的数据中及时抓住一些征兆。因此，数据分析速度很重要”。他表示，要提高数据分析速度，一定要使用Spark。

沃尔夫还介绍了CIA积极使用Spark等OSS的情况。CIA于2014年委托AmazonWebServices（AWS）在CIA数据中心内构建规格与AWS的公有云完全相同的云环境。沃尔夫表示，“AWS的吸引力是能够正常的使用包括OSS在内的多种软件，AWS本身已形成OSS的‘ECO’。我们也需要在CIA的云中建立与AWS相同的生态系统”。

在此次的Spark峰会上，除了丰田的美国法人之外，并无另外的日本企业发表演讲。不过，在2014年Spark峰会上，NTTDATA发表了演讲，而且在本届Spark峰会举行期间，NTTDATA的猿田就任Spark核心开发者“Comitta”。Spark的星星之火也已开始燃烧到日本。返回搜狐，查看更加多

上一篇: 【48812】十年大数据开发大咖共享很有用的Spark 大数据处理技能！

下一篇: 【48812】2023一带一路暨金砖国家技术开展与技术立异大赛“大数据集群运维办理赛项”国内总决赛（中职组）在郑开幕

新闻资讯

新闻资讯News

联系我们Contact Us

米乐体育下载

大数据的下一个主角是“Spark” 丰田及CIA等纷纷采用

相关新闻

关于我们

米乐体育下载

新闻资讯

联系方式

网站地图

米乐体育下载