Flink集成Hive之快速入门--以Flink1.12为例

使用Hive构建数据仓库已经成为了比较普遍的一种解决方案。目前,一些比较常见的大数据处理引擎,都无一例外兼容Hive。Flink从1.9开始支持集成Hive,不过1.9版本为beta版,不推荐在生产环境中使用。在Flink1.10版本中,标志着对 Blink的整合宣告完成,对 Hive 的集成也达到了生产级别的要求。值得注意的是,不同版本的Flink对于Hive的集成有所差异,本文将以最新的Flink1.12版本为例,阐述Flink集成Hive的简单步骤,以下是全文,希望对你有所帮助。

阅读全文

使用自定义分区器解决Spark DataSet数据分区不均匀的问题

如何管理Spark的分区一文中,介绍了Spark是如何管理分区的,分别解释了Spark提供的两种分区方法,并给出了相应的使用示例和分析,感兴趣的可以参考之前的分享。我们知道,Apache Spark通常用于以分布式方式处理大规模数据集,既然是分布式,就会面临一个问题:数据是否均匀地分布。当数据分布不均匀时,数据量较少的分区将会很快的被执行完成,而数据量较大的分区将需要很长时间才能够执行完毕,这就是我们经常所说的数据倾斜, 这可能会导致Spark作业的性能降低。那么,该如何解决类似的问题呢?我们可以使用 Spark提供的自定义分区器在RDD上应用数据分区的逻辑。以下是正文,希望对你有所帮助。

阅读全文

秒懂推荐系统-Spark平台下基于物品的协同过滤推荐系统构建

互联网的飞速发展使得现代社会处于一个信息爆炸的时代,面对海量的数据与信息,如何筛选和过滤成为了一个具有挑战性的问题。近年来,推荐系统被证明是一种解决信息过载问题的有效工具,从根本上讲,推荐系统是通过为用户指引该用户不熟悉的新物品来解决信息过载现象的。了解用户对物品的偏好并精准预测用户喜欢的物品是构建推荐系统中比较困难的部分,协同过滤是解决上述问题的一种方法。

阅读全文

如何管理Spark的分区

当我们使用Spark加载数据源并进行一些列转换时,Spark会将数据拆分为多个分区Partition,并在分区上并行执行计算。所以理解Spark是如何对数据进行分区的以及何时需要手动调整Spark的分区,可以帮助我们提升Spark程序的运行效率。

阅读全文

数仓开发需要了解的5大SQL分析函数

基本语法

analytic_function_name([argument_list])
OVER (
[PARTITION BY partition_expression,…]
[ORDER BY sort_expression, … [ASC|DESC]])

阅读全文

数仓|几种SQL隐藏的错误,你遇到过吗?

本文分享主要描述了几种书写SQL时常见的一些隐藏错误,主要包括:在运算符中使用null值、在聚合数据时使用null值、求平均值时使用判断条件、滤条件中使用and和or、查询的列字段之间缺少逗号分隔、inner join与left join。都是一些比较细节的点,希望本文对你有所帮助。

阅读全文