然而,Spark毕竟核心还是批处理,擅长迭代式的计算,但并不能满足所有的应用场景。其他为特殊应用场景设计的工具会对其补充,包括:
a) OLAP。OLAP,尤其是聚合类的在线统计分析应用,对于数据的存储、组织和处理都和单纯离线批处理应用有很大不同。以Impala为代表的SQL-on-Hadoop引擎借鉴了传统数据处理和MPP等技术,底层使用HDFS存储,是传统BI系统很好的替代方案候选。
b) 知识发现。与传统应用解决已知问题不同,大数据的价值在于发现并解决未知问题。因此,要最大限度地发挥分析人员的智能,将数据检索变为数据探索。Apache Solr项目是一个功能丰富的可扩展的搜索解决方案,内包括了Apache Lucene和Apache Tika。Cloudera的Search将Solr集成到了Hadoop,并使用高度自动化的流水线为Hadoop上的数据创建索引,在提高部署效率的同时,提供了更加直观方便的大数据平台搜索引擎。
【免责声明】本文仅代表作者个人观点,与中国数码招商网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。您若对该稿件内容有任何疑问或质疑,请联系本网将迅速给您回应并做处理。