Azkaban安装部署

Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。

阅读全文

Flink的数据类型

Flink使用type information来代表数据类型,Flink还具有一个类型提取系统,该系统分析函数的输入和返回类型,以自动获取类型信息(type information),从而获得序列化程序和反序列化程序。但是,在某些情况下,例如lambda函数或泛型类型,需要显式地提供类型信息((type information)),从而提高其性能。本文主要讨论包括:(1)Flink支持的数据类型,(2)如何为数据类型创建type information,(3)如果无法自动推断函数的返回类型,如何使用提示(hints)来帮助Flink的类型系统识别类型信息。

阅读全文

基于SparkStreaming的日志分析项目

  基于SparkStreaming实现实时的日志分析,首先基于discuz搭建一个论坛平台,然后将该论坛的日志写入到指定文件,最后通过SparkStreaming实时对日志进行分析。

阅读全文

Flink的状态后端(State Backends)

  当使用checkpoint时,状态(state)会被持久化到checkpoint上,以防止数据的丢失并确保发生故障时能够完全恢复。状态是通过什么方式在哪里持久化,取决于使用的状态后端。

阅读全文

浅析数据库缓冲池与SQL查询成本


  如果我们想要查找多行记录,查询时间是否会成倍地提升呢?其实数据库会采用缓冲池的方式提升页(page)的查找效率。数据库的缓冲池在数据库中起到了怎样的作用?如何查看一条 SQL 语句需要在缓冲池中进行加载的页的数量呢?

阅读全文

Flink自学系列教程


  Apache Flink 是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态计算。可部署在各种集群环境,对各种大小的数据规模进行快速计算。

阅读全文