Flink DataStream API 中的多面手——Process Function详解
在Flink的时间与watermarks详解这篇文章中,阐述了Flink的时间与水位线的相关内容。你可能不禁要发问,该如何访问时间戳和水位线呢?首先通过普通的DataStream API是无法访问的,需要借助Flink提供的一个底层的API——Process Function。Process Function不仅能够访问时间戳与水位线,而且还可以注册在将来的某个特定时间触发的计时器(timers)。除此之外,还可以将数据通过Side Outputs发送到多个输出流中。这样以来,可以实现数据分流的功能,同时也是处理迟到数据的一种方式。下面我们将从源码入手,结合具体的使用案例来说明该如何使用Process Function。
简介
Flink提供了很多Process Function,每种Process Function都有各自的功能,这些Process Function主要包括:
ProcessFunction
KeyedProcessFunction
CoProcessFunction
ProcessJoinFunction
ProcessWindowFunction
ProcessAllWindowFunction
BaseBroadcastProcessFunction
* KeyedBroadcastProcessFunction * BroadcastProcessFunction
继承关系图如下:
从上面的继承关系中可以看出,都实现了RichFunction接口,所以支持使用open()
、close()
、getRuntimeContext()
等方法的调用。从名字上可以看出,这些函数都有不同的适用场景,但是基本的功能是类似的,下面会以KeyedProcessFunction为例来讨论这些函数的通用功能。
源码
KeyedProcessFunction
/** |
上面的源码中,主要有两个方法,分析如下:
- processElement(I value, Context ctx, Collector
out)
该方法会对流中的每条记录都调用一次,输出0个或者多个元素,类似于FlatMap的功能,通过Collector将结果发出。除此之外,该函数有一个Context 参数,用户可以通过Context 访问时间戳、当前记录的key值以及TimerService(关于TimerService,下面会详细解释)。另外还可以使用output方法将数据发送到side output,实现分流或者处理迟到数据的功能。
- onTimer(long timestamp, OnTimerContext ctx, Collector
out)
该方法是一个回调函数,当在TimerService中注册的计时器(timers)被触发时,会回调该函数。其中@param timestamp
参数表示触发计时器(timers)的时间戳,Collector可以将记录发出。细心的你可能会发现,这两个方法都有一个上下文参数,上面的方法传递的是Context 参数,onTimer方法传递的是OnTimerContext参数,这两个参数对象可以实现相似的功能。OnTimerContext还可以返回触发计时器的时间域(EVENT_TIME与PROCESSING_TIME)。
TimerService
在KeyedProcessFunction源码中,使用TimerService来访问时间和计时器,下面来看一下源码:
|
TimerService提供了以下几种方法:
- currentProcessingTime()
返回当前的处理时间
- currentWatermark()
返回当前event-time水位线(watermark)时间戳
- registerProcessingTimeTimer(long time)
针对当前key,注册一个processing time计时器(timers),当processing time的时间等于该计时器时钟时会被调用
- registerEventTimeTimer(long time)
针对当前key,注册一个event time计时器(timers),当水位线时间戳大于等于该计时器时钟时会被调用
- deleteProcessingTimeTimer(long time)
针对当前key,删除一个之前注册过的processing time计时器(timers),如果这个timer不存在,那么该方法不会起作用
- deleteEventTimeTimer(long time)
针对当前key,删除一个之前注册过的event time计时器(timers),如果这个timer不存在,那么该方法不会起作用
当计时器触发时,会回调onTimer()函数,系统对于ProcessElement()方法和onTimer()方法的调用是同步的
注意:上面的源码中有两个Error 信息,这就说明计时器只能在keyed streams上使用,常见的用途是在某些key值不在使用后清除keyed state,或者实现一些基于时间的自定义窗口逻辑。如果要在一个非KeyedStream上使用计时器,可以使用KeySelector返回一个固定的分区值(比如返回一个常数),这样所有的数据只会发送到一个分区。
使用案例
下面将使用Process Function的side output功能进行分流处理,具体代码如下:
public class ProcessFunctionExample { |
总结
本文首先介绍了Flink提供的几种底层Process Function API,这些API可以访问时间戳和水位线,同时支持注册一个计时器,进行调用回调函数onTimer()。接着从源码的角度解读了这些API的共同部分,详细解释了每个方法的具体含义和使用方式。最后,给出了一个Process Function常见使用场景案例,使用其实现分流处理。除此之外,用户还可以使用这些函数,通过注册计时器,在回调函数中定义处理逻辑,使用非常的灵活。
公众号『大数据技术与数仓』,回复『资料』领取大数据资料包
相关推荐 ☟
- 本文链接:https://jiamaoxiang.top/2020/04/30/Flink-DataStream-API-中的多面手——Process-Function详解/
- 版权声明:本文为博主原创文章,遵循CC BY-SA 4.0版权协议,转载请附上原文出处链接和本声明
分享