第十一篇|基于SparkSQL的电影分析项目实战

2020-11-20

在之前的分享中，曾系统地介绍了Spark的基本原理和使用方式，感兴趣的可以翻看之前的分享文章。在本篇分享中，将介绍一个完整的项目案例，该案例会真实还原企业中SparkSQL的开发流程，手把手教你构建一个基于SparkSQL的分析系统。为了讲解方便，我会对代码进行拆解，完整的代码已上传至GitHub，想看完整代码可以去clone，记得给个Star。以下是全文，希望本文对你有所帮助。

阅读全文

篇五|ClickHouse数据导入(Flink、Spark、Kafka、MySQL、Hive)

2020-11-17

本文分享主要是ClickHouse的数据导入方式，本文主要介绍如何使用Flink、Spark、Kafka、MySQL、Hive将数据导入ClickHouse，具体内容包括：

使用Flink导入数据
使用Spark导入数据
从Kafka中导入数据

阅读全文

面试|不可不知的十大Hive调优技巧最佳实践

2020-11-16

Apache Hive是建立在Apache Hadoop之上的数据仓库软件项目，用于提供数据查询和分析。Hive是Hadoop在HDFS上的SQL接口，它提供了类似于SQL的接口来查询存储在与Hadoop集成的各种数据库和文件系统中的数据。可以说从事数据开发工作，无论是在平时的工作中，还是在面试中，Hive具有举足轻重的地位，尤其是Hive的性能调优方面，不仅能够在工作中提升效率而且还可以在面试中脱颖而出。在本文中，我将分享十个性能优化技术，全文如下。

阅读全文

第十篇|SparkStreaming手动维护Kafka Offset的几种方式

2020-11-11

Spark Streaming No Receivers 方式的createDirectStream 方法不使用接收器，而是创建输入流直接从Kafka 集群节点拉取消息。输入流保证每个消息从Kafka 集群拉取以后只完全转换一次，保证语义一致性。但是当作业发生故障或重启时，要保障从当前的消费位点去处理数据(即Exactly Once语义)，单纯的依靠SparkStreaming本身的机制是不太理想的，生产环境中通常借助手动管理offset的方式来维护kafka的消费位点。本文分享将介绍如何手动管理Kafka的Offset，希望对你有所帮助。本文主要包括以下内容：

阅读全文

Spark的五种JOIN策略解析

2020-11-01

JOIN操作是非常常见的数据处理操作，Spark作为一个统一的大数据处理引擎，提供了非常丰富的JOIN场景。本文分享将介绍Spark所提供的5种JOIN策略，希望对你有所帮助。本文主要包括以下内容：

影响JOIN操作的因素

阅读全文

Spark SQL百万级数据批量读写入MySQL

2020-11-01

Spark SQL读取MySQL的方式

Spark SQL还包括一个可以使用JDBC从其他数据库读取数据的数据源。与使用JdbcRDD相比，应优先使用此功能。这是因为结果作为DataFrame返回，它们可以在Spark SQL中轻松处理或与其他数据源连接。JDBC数据源也更易于使用Java或Python，因为它不需要用户提供ClassTag。

阅读全文

Jmx's Blog

第十一篇|基于SparkSQL的电影分析项目实战

篇五|ClickHouse数据导入(Flink、Spark、Kafka、MySQL、Hive)

面试|不可不知的十大Hive调优技巧最佳实践

第十篇|SparkStreaming手动维护Kafka Offset的几种方式

Spark的五种JOIN策略解析

Spark SQL百万级数据批量读写入MySQL

Spark SQL读取MySQL的方式