数据库酷软件工程大数据查询分析是

大数据查询分析是云计算中核心问题之一,自从Google在年之前的几篇论文奠定云计算领域基础,尤其是GFS、Map-Reduce、Bigtable被称为云计算底层技术三大基石。GFS、Map-Reduce技术直接支持了ApacheHadoop项目的诞生。Bigtable和AmazonDynamo直接催生了NoSQL这个崭新的数据库领域,撼动了RDBMS在商用数据库和数据仓库方面几十年的统治性地位。FaceBook的Hive项目是建立在Hadoop上的数据仓库基础构架,提供了一系列用于存储、查询和分析大规模数据的工具。当我们还浸淫在GFS、Map-Reduce、Bigtable等Google技术中,并进行理解、掌握、模仿时,Google在年之后,连续推出多项新技术,包括:Dremel、Pregel、Percolator、Spanner和F1。其中,Dremel促使了实时计算系统的兴起,Pregel开辟了图数据计算这个新方向,Percolator使分布式增量索引更新成为文本检索领域的新标准,Spanner和F1向我们展现了跨数据中心数据库的可能。在Google的第二波技术浪潮中,基于Hive和Dremel,新兴的大数据公司Cloudera开源了大数据查询分析引擎Impala,Hortonworks开源了Stinger,Fackbook开源了Presto。类似Pregel,UCBerkeleyAMPLAB实验室开发了Spark图计算框架,并以Spark为核心开源了大数据查询分析引擎Shark。由于某电信运营商项目中大数据查询引擎选型需求,本文将会对Hive、Impala、Shark、Stinger和Presto这五类主流的开源大数据查询分析引擎进行简要介绍以及性能比较,最后进行总结与展望。Hive、Impala、Shark、Stinger和Presto的进化图谱如图1所示。

图1.Impala、Shark、Stinger和Presto的进化图谱

当前主流引擎简介

基于Map-Reduce模式的Hadoop擅长数据批处理,不是特别符合即时查询的场景。实时查询一般使用MPP(MassivelyParallelProcessing)的架构,因此用户需要在Hadoop和MPP两种技术中选择。在Google的第二波技术浪潮中,一些基于Hadoop架构的快速SQL访问技术逐步获得人们







































有哪些医院治白癜风
治白癜风济南哪家医院好



转载请注明地址:http://www.henanledxianshiping.com/rjkfjh/6948.html
  • 上一篇文章:
  • 下一篇文章: