Hive SQL使用过程中的奇怪现象

2020-09-07

hive是基于Hadoop的一个数据仓库工具，用来进行数据的ETL，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能。Hive SQL是一种类SQL语言，与关系型数据库所支持的SQL语法存在微小的差异。本文对比MySQL和Hive所支持的SQL语法，发现相同的SQL语句在Hive和MySQL中输出结果的会有所不同。

阅读全文

使用Hive SQL的窗口函数进行商务数据分析

2020-09-07

本文会从一个商务分析案例入手，说明SQL窗口函数的使用方式。通过本文的5个需求分析，可以看出SQL窗口函数的功能十分强大，不仅能够使我们编写的SQL逻辑更加清晰，而且在某种程度上可以简化需求开发。

数据准备

本文主要分析只涉及一张订单表orders，操作过程在Hive中完成，具体数据如下：

阅读全文

项目实践|基于Flink的用户行为日志分析系统

2020-08-29

用户行为日志分析是实时数据处理很常见的一个应用场景，比如常见的PV、UV统计。本文将基于Flink从0到1构建一个用户行为日志分析系统，包括架构设计与代码实现。本文分享将完整呈现日志分析系统的数据处理链路，通过本文，你可以了解到：

基于discuz搭建一个论坛平台

阅读全文

元数据管理|Hive Hooks和Metastore监听器介绍

2020-08-20

元数据管理是数据仓库的核心，它不仅定义了数据仓库有什么，还指明了数据仓库中数据的内容和位置，刻画了数据的提取和转换规则，存储了与数据仓库主题有关的各种商业信息。本文主要介绍Hive Hook和MetaStore Listener，使用这些功能可以进行自动的元数据管理。通过本文你可以了解到：

阅读全文

SQL查询的执行顺序分析

2020-08-19

SQL 语言无处不在。SQL 已经不仅仅是技术人员的专属技能了，似乎人人都会写SQL，就如同人人都是产品经理一样。如果你是做后台开发的，那么CRUD就是家常便饭。如果你是做数仓开发的，那么写SQL可能占据了你的大部分工作时间。我们在理解 SELECT 语法的时候，还需要了解 SELECT 执行时的底层原理。只有这样，才能让我们对 SQL 有更深刻的认识。本文分享将逐步分解SQL的执行过程，希望对你有所帮助。

阅读全文

两阶段提交|Flink端到端的EXACTLY ONCE实现细节

2020-08-18

//TODO

阅读全文

Jmx's Blog

Hive SQL使用过程中的奇怪现象

使用Hive SQL的窗口函数进行商务数据分析

数据准备

项目实践|基于Flink的用户行为日志分析系统

元数据管理|Hive Hooks和Metastore监听器介绍

SQL查询的执行顺序分析

两阶段提交|Flink端到端的EXACTLY ONCE实现细节