Cloudera Impala：基于Hadoop的实时查询开源项目 -

lbxhappy

浏览: 302967 次
性别:
来自: 北京

最近访客更多访客>>

jakehappy888

xiaohuih1985

yanghongchun

源崇1

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Cloudera Impala：基于Hadoop的实时查询开源项目

博客分类：

云计算

摘要：号外！Cloudera发布了实时查询开源项目Impala！多款产品实测表明，比原来基于MapReduce的Hive SQL查询速度提升3～90倍。Impala是Google Dremel的模仿，但在SQL功能上青出于蓝胜于蓝。

CSDN报道文/刘江正在纽约进行的大数据技术会议Strata Conference + Hadoop World传来消息，Cloudera发布了实时查询开源项目Impala 1.0 beta版，称比原来基于MapReduce的Hive SQL查询速度提升3～90倍（详情可以参考此文中的“How much faster are Impala queries than Hive ones, really?”部分），而且更加灵活易用。Impala是高角羚的意思，这种羚羊主要分布在东非。

同时，这个项目也将以Cloudera Enterprise RTQ（Real-Time Query）为名进入CDH发行版。可以部署到生产环境的版本将到2013年一季度就绪。不过，据ComputerWorld和MarketWatch的报道，Capgemini金融服务、Karmasphere、MicroStrategy、Pentaho、Qlikview和Tableau等已经在Impala上做了几个月的实际产品测试。

众所周知，Hadoop及HBase、HDFS其实是在Google的MapReduce、BigTable和GFS三篇论文的启发下开发出来的。而近年来Google的基础架构又有了一波新的革新，有媒体称之为后Hadoop时代的三驾马车Caffeine、Pregel和Dremel。当然，这种说法有混淆了辈份之嫌，而且并不十分科学。Pregel是图数据库，据说在MapReduce之外担负了另外20%的数据处理任务，与三大论文之间没有承继关系。项目的创始人之一Grzegorz Malewicz去年来过北京，是Hadoop in China大会的主题演讲嘉宾。今年加盟了Facebook。前几天我在GTalk里询问他的近况，他说正在开发Pregel的开源版本。其实某种程度上，Caffeine是MapReduce的演进，在今年OSDI上大火的Spanner可以视为BigTable的演进，而Dremel则是新出的。

无论如何，有了好东西，开源社区当然会很快跟进，仿照Dremel的Apache Drill项目已经进行一段时间了。而Cloudera在官方博客中也明确承认，“对每个Hadoop用户都具有革命性的技术”Impala是在Dremel的启发下开发的。也就是说，Impala不再使用缓慢的Hive+MapReduce批处理，而是通过与商用并行关系数据库中类似的分布式查询引擎（由Query Planner、Query Coordinator和Query Exec Engine三部分组成），可以直接从HDFS或者HBase中用SELECT、JOIN和统计函数查询数据，从而大大降低了延迟。其架构如下图所示。

Impala的架构

Impala的架构（来自ZDNet）

Impala采用与Hive相同的元数据、SQL语法、ODBC驱动程序和用户接口(Hue Beeswax)，这样在使用CDH产品时，批处理和实时查询的平台是统一的。目前支持的文件格式是文本文件和SequenceFiles（可以压缩为Snappy、GZIP和BZIP，前者性能最好）。其他格式如Avro, RCFile, LZO文本和Doug Cutting的Trevni将在正式版中支持。

博客同时还比较了Impala与Dremel。文中说：

Dremel之所以能在大数据上实现交互性的响应速度，是因为使用了两方面的技术：一是对有嵌套结构的嵌套关系型数据采用了全新的列式存储格式，一是分布式可扩展统计算法，能够在几千台机器上并行计算查询结果。

而后一技术是从并行关系型数据库那里借鉴而来的。与2010年Dremel论文只能处理单表查询相比，Impala已经能够支持完整的JOIN操作。此外，除了Trevni列式存储格式之外，Impala还支持广泛的其他格式。也就是说：

Impala+Trevni已经完全实现了Dremel论文中的查询性能，而且在SQL功能上还超过了它。

文章也强调Impala并不会取代传统的数据仓库和MapReduce+Hive。数据仓库在对数量有限的结构化数据集做复杂的分析处理时仍然更加适用，而长期运行的数据转换负载还是MapReduce的用武之地。

有意思的是，这篇官方博文的作者之一是Impala的架构师Marcel Kornacker，在加盟Cloudera之前，是Google F1项目查询引擎的主开发人员，F1项目的任务，正是将AdWords的存储从MySQL转到Spanner。

Impala的主要资源

    源代码下载：http://github.com/cloudera/impala
    二进制：https://ccp.cloudera.com/display/SUPPORT/Downloads
    文档：https://ccp.cloudera.com/display/IMPALA10BETADOC/Cloudera+Impala+1.0+Beta+Documentation
    邮件列表：mailto:impala-user@cloudera.org

有理由相信，Cloudera的Impala会成为11月30日-12月1日在北京举行的Hadoop与大数据技术大会的焦点之一。

分享到：

谷歌开源 Supersonic 查询引擎 | hadoop 运行任务超时

2012-11-13 11:08
浏览 1133
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于Hadoop的实时查询 Cloudera Impala.zip: 基于Hadoop的实时查询 Cloudera Impala ,Cloudera 发布实时查询开源项目 Impala (黑斑羚)！多款产品实测表明，比原来基于Map...

[Ambari]==Ambari+Hadoop3集成impala3.2、kudu1.10.0: ambari2.7.5集成HDP3,本身不带impala、kudu 故集成cloudera的impala、kudu安装方式 ambari插件安装方式。解压放到/var/lib/ambari-server/resources/stacks/HDP/3.1/services/下

利用Impala＋Kudu构建准实时分析应用: Kudu是Cloudera开源的新型列式存储系统，Apache Hadoop生态圈的顶级项目之一，解决了传统Lamda架构处理Hadoop上快速变化数据的存储和处理技术过于复杂的问题，同时Kudu能够与Hadoop生态的其他组件比如Impala、Spark...

Impala大数据分析引擎课程: Impala由Cloudera公司主导开发的大数据实时查询分析工具，宣称比原来基于MapReduce的HiveSQL查询速度提升3~90倍，且更加灵活易用。提供类SQL的查询语句，能够查询存储在Hadoop的HDFS、Kudu、HBase（实际生产环境中...

Apache Hadoop---Sentry.docx: Apache Sentry是Cloudera公司发布的一个Hadoop开源组件，截止目前还是Apache的孵化项目，它提供了细粒度级、基于角色的授权以及多租户的管理模式。Sentry当前可以和Hive/Hcatalog、Apache Solr 和Cloudera Impala...

大数据开源框架集锦.pdf: 可视化的UI界⾯中⽅便地管理配置和监控Hadoop以及其它所有相关组件简单来说将⼗⼏个hadoop开源项⽬集成在⼀起 HDP 基于hadoop⽣态系统开源组件构建的⼤数据分析平台 2 集群管理与监控 Cloudera Manager ⽤于部署和...

构建近实时分析系统: Kudu是Cloudera开源的新型列式存储系统，Apache Hadoop生态圈的顶级项目之一，解决了传统Lamda架构处理Hadoop上快速变化数据的存储和处理技术过于复杂的问题，同时Kudu能够与Hadoop生态的其他组件比如Impala、Spark...

大数据技术体系.pdf: Kafka、StormMQ、ZeroMQ、RabbitMQ 查询分析：Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid 分布式协调服务：Zookeeper 集群管理与监控：Ambari、Ganglia、Nagios、Cloudera Manager ...

450+ AWS，Hadoop，云，Kafka，Docker，Elasticsearch，RabbitMQ，Redis，HBase，Solr，Cassandra，ZooKeeper，HDFS，Yarn，Hive，Presto，Drill，Impala，Consul，Spark，Jenkins，Travis CI，Git，MySQL ，Linux，DNS，Whois，SSL证书，Yum安全更新，Kubernetes，Cloudera等...-Python开发: Hadoop，云，Kafka，Docker，Elasticsearch，RabbitMQ，Redis，HBase，Solr，Cassandra，ZooKeeper，HDFS，Yarn，Hive，Presto，Drill，Impala，Consul，Spark，Jenkins，Travis CI，Git，MySQL ，Linux，DNS，Whois...

CDH-5.16.1-1.cdh5.16.1.p0.3-el7.parcel: Cloudera成立于2008年 [1] ，在企业和大型机构在寻求解决棘手的大数据问题时，往往会使用开源软件基础架构Hadoop的服务。 2018年10月，均为开源平台的Cloudera与Hortonworks公司宣布他们以52亿美元的价格合并。 CDH...

CDH-5.16.1-1.cdh5.16.1.p0.3-el7.parcel.sha1: Cloudera成立于2008年 [1] ，在企业和大型机构在寻求解决棘手的大数据问题时，往往会使用开源软件基础架构Hadoop的服务。 2018年10月，均为开源平台的Cloudera与Hortonworks公司宣布他们以52亿美元的价格合并。 CDH...

hue-3.9.0-cdh5.14.2.tar.gz: hue-logo.png特性：一个HDFS的文件浏览器，一个MapReduce/YARN的Job浏览器，一个 HBas的浏览器，Hive，Pig，Cloudera Impala 和 Sqoop2 的查询编辑器。它还附带了一个Oozie的应用程序，用于创建和监控工作流程，一个...

Kudu:支持快速分析的新型Hadoop存储系统: Kudu是Cloudera开源的新型列式存储系统，是ApacheHadoop生态圈的新成员之一（incubating），专门为了对快速变化的数据进行快速的分析，填补了以往Hadoop存储层的空缺。Hadoop生态系统有很多组件，每一个组件有不同的...

getl：使用ETL和ELT流程轻松开发项目的框架，该框架可用于Micro Focus Vertica平台上的数据源和数据仓库: 盖特关于 Groovy ETL（Getl）-Groovy上的开源项目，自2012年以来开发，可... IBM DB2，FireBird，H2数据库，Hadoop Hive，Cloudera Impala，MS SQLServer，MySql，IBM Netezza，NetSuite，Oracle，PostgreSql，Micro

Nagios插件：450多个AWS，Hadoop，云，Kafka，Docker，Elasticsearch，RabbitMQ，Redis，HBase，Solr，Cassandra，ZooKeeper，HDFS，Yarn，Hive，Presto，Drill，Impala，Consul，Spark，Jenkins，Travis CI ，Git，MySQL，Linux，DNS，Whois，SSL证书，Yum安全更新，Kubernetes，Cloudera等。: 支持大多数主要的开源NoSQL技术，Pub-Sub /消息总线，基于CI，Web和Linux的基础架构，包括：与所有主要Hadoop供应商（，，，）的广泛API集成 Linux-包括用于 / yum安全更新的广泛使用的check_yum.py SSL证书...

kudu简介ppt: kudu简介，用于宣讲。 Apache Kudu是Apache Hadoop生态系统的一个免费开源的面向列的数据存储。它与Hadoop环境中的大多数数据处理框架兼容。... 构建Apache Kudu的开源项目始于Cloudera的内部项目。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Cloudera Impala：基于Hadoop的实时查询开源项目

评论

发表评论

相关推荐

hive 安装运行权限错误Permission denied: user=hive, access=WRITE,

hadoop 源码编译 导入eclipse

hive null 和空值

mahout中bayes分类分析—2

mahout中bayes分类分析—1

谷歌开源 Supersonic 查询引擎

hadoop 运行任务超时

Task process exit with nonzero status of 1.

导出excel2007 poi3.8

hbase 导出 excel报表 jxl

hbase 导入导出

hive函数大全

Hadoop Job Scheduler作业调度器

关于hadoop2.0自定义计数器

hadoop Text编码问题

最近访客更多访客>>

hadoop 源码编译导入eclipse