Flink1.10集成Hive快速入门

Hive 是大数据领域最早出现的 SQL 引擎,发展至今有着丰富的功能和广泛的用户基础。之后出现的 SQL 引擎,如 Spark SQL、Impala 等,都在一定程度上提供了与 Hive 集成的功能,从而方便用户使用现有的数据仓库、进行作业迁移等。

Flink从1.9开始支持集成Hive,不过1.9版本为beta版,不推荐在生产环境中使用。在最新版Flink1.10版本,标志着对 Blink的整合宣告完成,随着对 Hive 的生产级别集成,Hive作为数据仓库系统的绝对核心,承担着绝大多数的离线数据ETL计算和数据管理,期待Flink未来对Hive的完美支持。

阅读全文

Flink的八种分区策略源码解读

Flink包含8中分区策略,这8中分区策略(分区器)分别如下面所示,本文将从源码的角度一一解读每个分区器的实现方式。

  • GlobalPartitioner
  • ShufflePartitioner

阅读全文

基于Canal与Flink实现数据实时增量同步(二)

本文主要从Binlog实时采集和离线处理Binlog还原业务数据两个方面,来介绍如何实现DB数据准确、高效地进入Hive数仓。

阅读全文

分布式数据集成框架gobblin快速入门

Apache Gobblin 是一个通用的分布式数据集成框架,用于从各种数据源(数据库,REST API,FTP / SFTP服务器,文件管理器等)提取,转换和加载大量数据到Hadoop上。使得大数据集成变得更加简单,例如批处理数据生态系统的数据摄取,复制,组织和生命周期管理。gobblin由LinkedIn开源,现为Apache的孵化项目。

阅读全文

基于Canal与Flink实现数据实时增量同步(一)

canal是阿里巴巴旗下的一款开源项目,纯Java开发。基于数据库增量日志解析,提供增量数据订阅&消费,目前主要支持了MySQL(也支持mariaDB)。

阅读全文

SQL中的相关子查询解析

分步骤解析SQL的相关子查询

阅读全文