有一款数据处理软件,正式版才公开1年的时间,就已经被“Uber”、“Airbnb”等非常关注的新兴企业和丰田等大规模的公司采用,美国IBM将其称为“今后10年内数据领域最重要的开源软件(OSS)”,并开始为相关项目投入3500名研发人员。这款软件就是“Spark”。
2015年6月15~17日(美国时间),用户大会“2015年Spark峰会”在旧金山市举行,参会用户达到了2000名(照片1)。
在本届大会上,出租车配车服务商UberTechnologies、将民宅作为宾馆出租的Airbnb、丰田的美国法人、百度以及美国中央情报局(CIA)等纷纷介绍了Spark的应用实例。IBM也配合该大会的举办,宣布为Spark相关项目投入3500名研发人员。
Spark是美国加利福尼亚大学伯克利分校开始开发的OSS,目前由该校研究人员创办的初创企业Databricks主导开发。其正式版“Spark1.0”刚刚于1年前,也就是2014年5月公开。
尽管如此,Spark仍开始被视为继大数据处理常用软件“Hadoop”之后的大数据处理新主角。为何Spark会受到如此高的关注呢?下面就按照每个用户在2015年Spark峰会上公开的相关联的内容,介绍一下Spark的现状。
Spark是通过让数十~数百台PC服务器联动来实现大数据高速处理的“分布数据处理软件”。只需增加PC服务器数量即可提高处理性能,因此无需使用昂贵的大型服务器,就能以较低的成本进行大数据处理。
Spark与Hadoop同为分布数据处理软件。Spark的不同之处在于能够高速处理Hadoop不擅长的“机器学习”。在Spark峰会上发表演讲的丰田美国公司(丰田的美国法人,ToyotaUSA)数据科学家BrianKursar表示,“利用Spark,可以使以前要消耗36小时的机器学习处理时间缩短至9分钟”(照片2)。
机器学习是一种由计算机自动从数据中获得知识或规则的技术。丰田美国于2015年4月采用机器学习技术开发出了一种系统,可由计算机依据内容,对“推特”(Twitter)等SNS(社交网络服务)上用户写下的留言进行自动分类。
用户在SNS上针对丰田写下的留言是关于“丰田车性能”的,还是关于“丰田专卖店(经销商)服务”的,亦或是关于“丰田CM”的呢?计算机通过对大数据进行机器学习,自动找出了用来进行这种判断的“规则”。并利用Spark进行了这方面的相关处理。
Kursar称,“SNS上的留言数据非常庞大,由人来查看这一些内容是不可能的。通过开发出这种可自动判断出用户留言内容的系统,可以从庞大的数据中找出有助于改善产品和服务的有益留言”。
机器学习可根据有关数据,采用统计方法,针对计算机制定的“规则”与现实规则的相符程度进行多次验证。Hadoop在每次进行这种验证处理时,都会从硬盘(HDD)中读取数据,或者将数据写入硬盘。因此,要消耗较长时间来处理。
而Spark通过将所需数据保存在存储器上来进行这种验证处理。由于不使用低速硬盘,因此与Hadoop相比,可以缩短处理时间。
而且,Spark还可以与Hadoop共存。原因是Spark可以对Hadoop的标准存储器“HDFS”保存的数据来进行处理。Spark的主要开发者之一、NTTDATA基础系统业务本部的猿田浩辅表示,“Spark可对Hadoop起到补充作用”。对于现有Hadoop用户而言,Spark能够轻松导入,因此该软件在短短1年内就迅速普及开来。
Zaharia称,目前Spark使用顶级规模的企业是中国SNS运营商腾讯(Tencent),该公司在8000台服务器上使用了Spark。中国EC(电商)阿里巴巴集团则使用Spark一次处理高达1PB(PetaByte)的数据。
中国企业对使用Spark非常积极。在中国大型搜索网站百度的美国法人百度美国担任资深架构师的JamesPeng在2015年Spark峰会上登台发表主题演讲,介绍了百度使用Spark的情况(照片3)。Peng表示,百度目前使用1000多台服务器来运行Spark。在互联网广告、搜索、地图服务、EC等业务领域均使用了Spark。
Peng介绍说,“对于百度的机器学习来说,Spark是必不可少的平台”。该公司目前正在考虑扩展Spark,使其能用来以人脑为模型的机器学习方法“深度学习(DeepLearning)”的处理。
此外,Airbnb及Uber等公司也在Spark峰会上发表演讲,介绍了Spark的导入实例。据Airbnb介绍,该公司使用Spark开发出了一种系统,该系统能以天为单位预测全世界不同城市的住宿需求,为房主确定房间价格提供帮助。
在Airbnb网站上,出租房间的价格每天都在发生明显的变化。这些房间的价格是根据Airbnb向房主提供的“定价辅助系统”来确定的。定价辅助系统根据计算机对50亿个住宿有关数据进行机器学习之后制作出来的需求预测模型,向房主建议合理的房间价格。
虽然Uber并未透露在什么业务中使用了Spark,但表示多个业务部门都在使用Spark,同时该公司还介绍了多个部门共同使用Spark时的技术诀窍。
在Spark峰会上大放异彩的是CIA首席信息官(CIO)道格·沃尔夫(DougWolfe)的主题演讲(照片4)。CIA从2014年开始使用Spark,目前已有200台服务器使用Spark。沃尔夫认为,“CIA必须从庞大的数据中及时抓住一些征兆。因此,数据分析速度很重要”。他表示,要提高数据分析速度,一定要使用Spark。
沃尔夫还介绍了CIA积极使用Spark等OSS的情况。CIA于2014年委托AmazonWebServices(AWS)在CIA数据中心内构建规格与AWS的公有云完全相同的云环境。沃尔夫表示,“AWS的吸引力是能够正常的使用包括OSS在内的多种软件,AWS本身已形成OSS的‘ECO’。我们也需要在CIA的云中建立与AWS相同的生态系统”。
在此次的Spark峰会上,除了丰田的美国法人之外,并无另外的日本企业发表演讲。不过,在2014年Spark峰会上,NTTDATA发表了演讲,而且在本届Spark峰会举行期间,NTTDATA的猿田就任Spark核心开发者“Comitta”。Spark的星星之火也已开始燃烧到日本。返回搜狐,查看更加多