程序员该如何写一篇高质量的技术文章

作为一个技术人,写文档可以说是工作中的一部分。除了文档之外,我们还会学习新的技术、总结工作经验,从而沉淀出自己的知识体系。我们经常说:[好记性不如烂笔头],只有把这些凌乱的,无形的知识加以梳理,我们才能够更加深刻地去理解、去构建自己的知识库。其实,这些都是知识管理的范畴,将无形的知识显性化,一方面可以加深自己的理解和记忆,另一方面也方便知识的分享与传播。所以,善于总结并输出技术文章是一个很好的提升的自己方式。

阅读全文

CDH集群安装部署

大数据平台软件清单

本文部署的大数据基础平台为CDH,操作系统的版本为CentOS6.8,JDK的版本为1.8,Cloudera Manager与CDH的版本为5.15.1,数据库采用MySQL5.7,JDBC驱动的版本为5.1.40,以上所有软件均为开源版本,具体如下表所示:

阅读全文

Greenplum5.9生产环境集群部署

配置系统并安装greenplum数据库

按顺序执行下面安装任务:

阅读全文

实时数仓|以upsert的方式读写Kafka数据——以Flink1.12为例

在某些场景中,比如GROUP BY聚合之后的结果,需要去更新之前的结果值。这个时候,需要将 Kafka 消息记录的 key 当成主键处理,用来确定一条数据是应该作为插入、删除还是更新记录来处理。在Flink1.11中,可以通过 flink-cdc-connectors 项目提供的 *changelog-json format *来实现该功能。关于该功能的使用,见之前的分享Flink1.11中的CDC Connectors操作实践

阅读全文

Flink on Hive构建流批一体数仓

Flink使用HiveCatalog可以通过或者的方式来处理Hive中的表。这就意味着Flink既可以作为Hive的一个批处理引擎,也可以通过流处理的方式来读写Hive中的表,从而为实时数仓的应用和流批一体的落地实践奠定了坚实的基础。本文将以Flink1.12为例,介绍Flink集成Hive的另外一个非常重要的方面——Hive维表JOIN(Temporal Table Join)与Flink读写Hive表的方式。以下是全文,希望本文对你有所帮助。

阅读全文

Flink集成Hive之Hive Catalog与Hive Dialect--以Flink1.12为例

在上一篇分享Flink集成Hive之快速入门–以Flink1.12为例中,介绍了Flink集成Hive的进本步骤。本文分享,将继续介绍Flink集成Hive的另外两个概念:Hive Catalog与Hive Dialect。本文包括以下内容,希望对你有所帮助。

阅读全文