Kafka的Controller Broker是什么

控制器组件(Controller),是 Apache Kafka 的核心组件。它的主要作用是在 Apache ZooKeeper 的帮助下管理和协调整个 Kafka 集群。集群中任意一台 Broker 都能充当控制器的角色,但是,在运行过程中,只能有一个 Broker 成为控制器,行使其管理和协调的职责。接下来,我们将讨论Controller原理和内部运行机制。通过本文你可以了解到:

阅读全文

Kafka生产者ack机制剖析

Kafka有两个很重要的配置参数,acksmin.insync.replicas.其中acks是producer的配置参数,min.insync.replicas是Broker端的配置参数,这两个参数对于生产者不丢失数据起到了很大的作用.接下来,本文会以图示的方式讲解这两个参数的含义和使用方式。通过本文,你可以了解到:

阅读全文

数仓开发应避免的10个陷阱

在Ralph Kimball和Margy Ross 的《数据仓库工具包》一书中,提到了数据仓库设计中的10个常见陷阱,本文针对每个陷阱添加了一条与数据仓库设计经验有关的附加解释。在着手进行数据仓库项目之前,可以了解一下数这10个常见陷阱。这样才可以不被数据仓库设计的陷阱所困扰,避免这10个常见的陷阱可以在构建数仓的过程少走些弯路。

阅读全文

Hive的架构剖析

本文主要介绍Hive的架构和以及HQL的查询阶段,主要内容包括:

  • Hive的架构
  • 架构中的相关组件介绍
  • HQL的查询阶段

阅读全文

数据分析|使用多元线性回归构建销售额预测模型

回归是确定因变量和一组自变量之间的关系的过程。线性模型形式简单、易于建模,但却蕴含着机器学习中一些重要的基本思想。本文会通过EXCEL构建一个多元线性回归模型,来预测广告投入对销售的影响。本文的主要内容包括:

  • 线性回归的基本概念
  • 回归模型的重要参数

阅读全文

‘Hive on MR执行计划与执行日志解析

MR是Hive的默认执行引擎,在该引擎下,HQL会被转换为MR作业。通过Hive的执行计划可以看出一个SQL语句的执行阶段,通过Hive的执行日志可以看出转换之后的MR作业信息。本文会通过一个具体HQL,解读一下Hive执行计划与执行日志。通过本文,你可以了解到:

  • 如何查看一个HQL会被转换为几个MR Job

阅读全文