使SQL更易于阅读的几个小技巧

无论是数仓开发还是数据分析,写一手好的SQL是一项基本的技能。毋庸置疑,编写性能较好的SQL是非常重要的,但是,SQL的可读性同样是不容小觑的。一个有着混乱格式的SQL脚本,往往需要花费较长的时间去弄清楚脚本的具体逻辑。如果你曾经被祖传的毫无章法的SQL脚本狂虐过,你一定心有感触。本文将分享几个SQL格式的规范,当然仁者见仁智者见智,其实没有严格的标准,如果有,那就是保证易于阅读和易于维护。

阅读全文

Kafka的Controller Broker是什么

控制器组件(Controller),是 Apache Kafka 的核心组件。它的主要作用是在 Apache ZooKeeper 的帮助下管理和协调整个 Kafka 集群。集群中任意一台 Broker 都能充当控制器的角色,但是,在运行过程中,只能有一个 Broker 成为控制器,行使其管理和协调的职责。接下来,我们将讨论Controller原理和内部运行机制。通过本文你可以了解到:

阅读全文

Kafka生产者ack机制剖析

Kafka有两个很重要的配置参数,acksmin.insync.replicas.其中acks是producer的配置参数,min.insync.replicas是Broker端的配置参数,这两个参数对于生产者不丢失数据起到了很大的作用.接下来,本文会以图示的方式讲解这两个参数的含义和使用方式。通过本文,你可以了解到:

阅读全文

数仓开发应避免的10个陷阱

在Ralph Kimball和Margy Ross 的《数据仓库工具包》一书中,提到了数据仓库设计中的10个常见陷阱,本文针对每个陷阱添加了一条与数据仓库设计经验有关的附加解释。在着手进行数据仓库项目之前,可以了解一下数这10个常见陷阱。这样才可以不被数据仓库设计的陷阱所困扰,避免这10个常见的陷阱可以在构建数仓的过程少走些弯路。

阅读全文

Hive的架构剖析

本文主要介绍Hive的架构和以及HQL的查询阶段,主要内容包括:

  • Hive的架构
  • 架构中的相关组件介绍
  • HQL的查询阶段

阅读全文

数据分析|使用多元线性回归构建销售额预测模型

回归是确定因变量和一组自变量之间的关系的过程。线性模型形式简单、易于建模,但却蕴含着机器学习中一些重要的基本思想。本文会通过EXCEL构建一个多元线性回归模型,来预测广告投入对销售的影响。本文的主要内容包括:

  • 线性回归的基本概念
  • 回归模型的重要参数

阅读全文