实时数仓|基于Flink1.11的SQL构建实时数仓探索实践

2020-08-12

实时数仓主要是为了解决传统数仓数据时效性低的问题，实时数仓通常会用在实时的OLAP分析、实时的数据看板、业务指标实时监控等场景。虽然关于实时数仓的架构及技术选型与传统的离线数仓会存在差异，但是关于数仓建设的基本方法论是一致的。本文会分享基于Flink SQL从0到1搭建一个实时数仓的demo，涉及数据采集、存储、计算、可视化整个处理流程。通过本文你可以了解到：

阅读全文

Flink1.11中的CDC Connectors操作实践

2020-08-12

Flink1.11引入了CDC的connector，通过这种方式可以很方便地捕获变化的数据，大大简化了数据处理的流程。Flink1.11的CDC connector主要包括：MySQL CDC和Postgres CDC,同时对Kafka的Connector支持canal-json和debezium-json以及changelog-json的format。本文主要分享以下内容：

阅读全文

内含面试|一文搞懂HBase的基本原理

2020-08-07

本文会对HBase的基本原理进行剖析，通过本文你可以了解到：

CAP理论
NoSQL出现的原因
HBase的特点及使用场景

阅读全文

数仓面试|四个在工作后才知道的SQL密技

2020-08-06

SQL是大数据从业者的必备技能，大部分的大数据技术框架也都提供了SQL的解决方案。可以说SQL是一种经久不衰、历久弥新的编程语言。尤其是在数仓领域，使用SQL更是家常便饭。本文会分享四个在面试和工作中常用的几个使用技巧，具体包括：

日期与期间的使用

阅读全文

第七篇|Spark平台下基于LDA的k-means算法实现

2020-08-02

本文主要在Spark平台下实现一个机器学习应用，该应用主要涉及LDA主题模型以及K-means聚类。通过本文你可以了解到：

文本挖掘的基本流程

阅读全文

第六篇|Spark MLLib机器学习(1)

2020-07-31

MLlib是Spark提供的一个机器学习库，通过调用MLlib封装好的算法，可以轻松地构建机器学习应用。它提供了非常丰富的机器学习算法，比如分类、回归、聚类及推荐算法。除此之外，MLlib对用于机器学习算法的API进行了标准化，从而使将多种算法组合到单个Pipeline或工作流中变得更加容易。通过本文，你可以了解到：

阅读全文

Jmx's Blog

实时数仓|基于Flink1.11的SQL构建实时数仓探索实践

Flink1.11中的CDC Connectors操作实践

内含面试|一文搞懂HBase的基本原理

数仓面试|四个在工作后才知道的SQL密技

第七篇|Spark平台下基于LDA的k-means算法实现

第六篇|Spark MLLib机器学习(1)