Flink的Window Function介绍

阅读全文

Impala使用的端口

本文主要介绍了Impala所使用的端口号,在部署Impala的时候,确保下面列出的端口是开启的。

阅读全文

Azkaban安装部署

Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。

阅读全文

Flink的数据类型

Flink使用type information来代表数据类型,Flink还具有一个类型提取系统,该系统分析函数的输入和返回类型,以自动获取类型信息(type information),从而获得序列化程序和反序列化程序。但是,在某些情况下,例如lambda函数或泛型类型,需要显式地提供类型信息((type information)),从而提高其性能。本文主要讨论包括:(1)Flink支持的数据类型,(2)如何为数据类型创建type information,(3)如果无法自动推断函数的返回类型,如何使用提示(hints)来帮助Flink的类型系统识别类型信息。

阅读全文

基于SparkStreaming的日志分析项目

  基于SparkStreaming实现实时的日志分析,首先基于discuz搭建一个论坛平台,然后将该论坛的日志写入到指定文件,最后通过SparkStreaming实时对日志进行分析。

阅读全文

Flink的状态后端(State Backends)

  当使用checkpoint时,状态(state)会被持久化到checkpoint上,以防止数据的丢失并确保发生故障时能够完全恢复。状态是通过什么方式在哪里持久化,取决于使用的状态后端。

阅读全文