利用Kettle+FineBI+MySQL构建电商运营分析报表可视化平台视频教程
6095 人在学
Spark已经以暴风骤雨之势席卷整个大数据领域。那么下一个内存内引擎选项会是什么?Spark背后的主要商业支持方Databricks对此给出了一点提示。
Spark2.0面纱半揭,相关细节引人遐想
在上周召开的Spark东部峰会上,Databricks公司发布了一系列相关提示,旨在探讨内存内数据处理工具Spark的未来发展方向。该公司作为Spark项目背后的核心商业支持方,在该项技术成果的演进道路上扮演着重要角色。
Databricks的托管Spark平台DatabricksCloud目前已经提供订阅服务。为了进一步简化该云环境中的Spark上手难度,Databricks公布了一套免费层,即这套平台的社区版本。虽然目前此版本尚处于beta测试阶段,但其通用版本预计将在今年年中与广大用户见面。
Databricks公司将该社区版本明确定位为付费产品版本的过渡手段,并指出其将“帮助用户以无缝化方式将自身原型设计过渡至完整Databricks平台之上的生产性应用程序。”
Databricks公司亦决心始终紧跟Spark的发展步伐。通过此次Spark峰会主题演讲发布的一系列演示资料,Databricks公司CTO兼Spark创始人MateiZaharia谈到了即将出炉的Spark2.0。其将包含以下三大核心转变:利用Tungsten项目的下一发展阶段解决java内存处理局限,从而加快Spark运行速度;将Spark改进为一套实时数据流系统;将Spark当前使用的结构化数据API(包括Dataset与DataFrame)统一为单一API。
不过此次演讲未被提及、但却广受Spark支持者关注的一项细节在于,Spark要如何进一步与ApacheArrow加以结合——这一全新项目旨在为列式数据提供内存内版本,从而实现快速访问成效。
这一切都可谓真正令人兴奋且意义重大的改进。特别是Tungsten项目所代表的方案能够显著加快其它由Java语言编写而成的大数据项目的运行速度。
目前,该公司宣称其已经拥有200家付费客户,并自信地表示其将专注于推动Databricks平台而非将精力分散至其它项目。
不过Databricks公司并不是惟一一家Spark参与厂商。IBM公司就专门将Spark作为自身大数据发展战略中的核心组成部分,旨在立足于其Bluemix云提供“Spark即服务”方案。过去一年当中,Spark项目已经从Hadoop手中夺过了大数据首选引擎的桂冠,而Databricks公司也将在新的发展阶段面临更为严峻的项目演进竞争。