CDH集群安装部署

大数据平台软件清单

本文部署的大数据基础平台为CDH,操作系统的版本为CentOS6.8,JDK的版本为1.8,Cloudera Manager与CDH的版本为5.15.1,数据库采用MySQL5.7,JDBC驱动的版本为5.1.40,以上所有软件均为开源版本,具体如下表所示:

阅读全文

Greenplum5.9生产环境集群部署

配置系统并安装greenplum数据库

按顺序执行下面安装任务:

阅读全文

实时数仓|以upsert的方式读写Kafka数据——以Flink1.12为例

在某些场景中,比如GROUP BY聚合之后的结果,需要去更新之前的结果值。这个时候,需要将 Kafka 消息记录的 key 当成主键处理,用来确定一条数据是应该作为插入、删除还是更新记录来处理。在Flink1.11中,可以通过 flink-cdc-connectors 项目提供的 *changelog-json format *来实现该功能。关于该功能的使用,见之前的分享Flink1.11中的CDC Connectors操作实践

阅读全文

Flink on Hive构建流批一体数仓

Flink使用HiveCatalog可以通过或者的方式来处理Hive中的表。这就意味着Flink既可以作为Hive的一个批处理引擎,也可以通过流处理的方式来读写Hive中的表,从而为实时数仓的应用和流批一体的落地实践奠定了坚实的基础。本文将以Flink1.12为例,介绍Flink集成Hive的另外一个非常重要的方面——Hive维表JOIN(Temporal Table Join)与Flink读写Hive表的方式。以下是全文,希望本文对你有所帮助。

阅读全文

Flink集成Hive之Hive Catalog与Hive Dialect--以Flink1.12为例

在上一篇分享Flink集成Hive之快速入门–以Flink1.12为例中,介绍了Flink集成Hive的进本步骤。本文分享,将继续介绍Flink集成Hive的另外两个概念:Hive Catalog与Hive Dialect。本文包括以下内容,希望对你有所帮助。

阅读全文

Flink集成Hive之快速入门--以Flink1.12为例

使用Hive构建数据仓库已经成为了比较普遍的一种解决方案。目前,一些比较常见的大数据处理引擎,都无一例外兼容Hive。Flink从1.9开始支持集成Hive,不过1.9版本为beta版,不推荐在生产环境中使用。在Flink1.10版本中,标志着对 Blink的整合宣告完成,对 Hive 的集成也达到了生产级别的要求。值得注意的是,不同版本的Flink对于Hive的集成有所差异,本文将以最新的Flink1.12版本为例,阐述Flink集成Hive的简单步骤,以下是全文,希望对你有所帮助。

阅读全文