电商业务常用指标分析之SQL实现

当构建好电商业务数仓之后,需要对业务需要的指标进行计算,从而进一步进行报表的展示,那么,电商的业务知识大概涉及哪些?关于电商业务的常用指标计算都有哪些?这些常用的指标该如何通过Hive数仓进行分析?本文将进行一一梳理.

阅读全文

CDH集群之YARN性能调优

本文主要讨论CDH集群的YARN调优配置,关于YARN的调优配置,主要关注CPU和内存的调优,其中CPU是指物理CPU个数乘以CPU核数,即Vcores = CPU数量*CPU核数。YARN是以container容器的形式封装资源的,task在container内部执行。

阅读全文

历史拉链表实战

历史拉链表是一种数据模型,主要是针对数据仓库设计中表存储数据的方式而定义的。所谓历史拉链表,就是指记录一个事物从开始一直到当前状态的所有变化信息。拉所有记录链表可以避免按每一天存储造成的海量存储问题,同时也是处理缓慢变化数据的一种常见方式。

阅读全文

Flink运行架构剖析

本文主要介绍 Flink Runtime 的作业执行的核心机制。首先介绍 Flink Runtime 的整体架构以及 Job 的基本执行流程,然后介绍Flink 的Standalone运行架构,最后对Flink on YARN的两种模式进行了详细剖析。

阅读全文

经典Hive-SQL面试题

HQL练习

阅读全文

Impala使用的端口

本文主要介绍了Impala所使用的端口号,在部署Impala的时候,确保下面列出的端口是开启的。

阅读全文