Flink实现特定统计的归约聚合reduce操作_每日热讯

时间：2023-07-03 10:27:37 来源：脚本之家

如果说简单聚合是对一些特定统计需求的实现，那么 reduce 算子就是一个一般化的聚合统计操作了。从大名鼎鼎的 MapReduce 开始，我们对 reduce 操作就不陌生：它可以对已有的

数据进行归约处理，把每一个新输入的数据和当前已经归约出来的值，再做一个聚合计算。与简单聚合类似，reduce 操作也会将 KeyedStream 转换为 DataStream。它不会改变流的元

(资料图片)

素数据类型，所以输出类型和输入类型是一样的。调用 KeyedStream 的 reduce 方法时，需要传入一个参数，实现 ReduceFunction 接口。接口在源码中的定义如下：

@Public
@FunctionalInterface
public interface ReduceFunction extends Function, Serializable {
    /**
     * The core method of ReduceFunction, combining two values into one value of the same type. The
     * reduce function is consecutively applied to all values of a group until only a single value
     * remains.
     *
     * @param value1 The first value to combine.
     * @param value2 The second value to combine.
     * @return The combined value of both input values.
     * @throws Exception This method may throw exceptions. Throwing an exception will cause the
     *     operation to fail and may trigger recovery.
     */
    T reduce(T value1, T value2) throws Exception;
}

ReduceFunction 接口里需要实现 reduce()方法，这个方法接收两个输入事件，经过转换处理之后输出一个相同类型的事件；所以，对于一组数据，我们可以先取两个进行合并，然后再

将合并的结果看作一个数据、再跟后面的数据合并，最终会将它“简化”成唯一的一个数据，这也就是 reduce“归约”的含义。在流处理的底层实现过程中，实际上是将中间“合并的结果”

作为任务的一个状态保存起来的；之后每来一个新的数据，就和之前的聚合状态进一步做归约。

其实，reduce 的语义是针对列表进行规约操作，运算规则由 ReduceFunction 中的 reduce方法来定义，而在 ReduceFunction 内部会维护一个初始值为空的累加器，注意累加器的类型

和输入元素的类型相同，当第一条元素到来时，累加器的值更新为第一条元素的值，当新的元素到来时，新元素会和累加器进行累加操作，这里的累加操作就是 reduce 函数定义的运算规

则。然后将更新以后的累加器的值向下游输出。

我们可以单独定义一个函数类实现 ReduceFunction 接口，也可以直接传入一个匿名类。当然，同样也可以通过传入 Lambda 表达式实现类似的功能。与简单聚合类似，reduce 操作也会将 KeyedStream 转换为 DataStrema。它不会改变流的元素数据类型，所以输出类型和输入类型是一样的。下面我们来看一个稍复杂的例子。

我们将数据流按照用户 id 进行分区，然后用一个 reduce 算子实现 sum 的功能，统计每个用户访问的频次；进而将所有统计结果分到一组，用另一个 reduce 算子实现 maxBy 的功能，记录所有用户中访问频次最高的那个，也就是当前访问量最大的用户是谁。[page]

package com.rosh.flink.test;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.common.functions.ReduceFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import java.util.ArrayList;
import java.util.List;
import java.util.Random;
/**
 * 我们将数据流按照用户 id 进行分区，然后用一个 reduce 算子实现 sum 的功能，统计每个
 * 用户访问的频次；进而将所有统计结果分到一组，用另一个 reduce 算子实现 maxBy 的功能，
 * 记录所有用户中访问频次最高的那个，也就是当前访问量最大的用户是谁。
 */
public class TransReduceTest {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);
        //随机生成数据
        Random random = new Random();
        List userIds = new ArrayList<>();
        for (int i = 1; i <= 10; i++) {
            userIds.add(random.nextInt(5));
        }
        DataStreamSource userIdDS = env.fromCollection(userIds);
        //每个ID访问记录一次
        SingleOutputStreamOperator> mapDS = userIdDS.map(new MapFunction>() {
            @Override
            public Tuple2 map(Integer value) throws Exception {
                return new Tuple2<>(value, 1L);
            }
        });
        //统计每个user访问多少次
        SingleOutputStreamOperator> sumDS = mapDS.keyBy(tuple -> tuple.f0).reduce(new ReduceFunction>() {
            @Override
            public Tuple2 reduce(Tuple2 value1, Tuple2 value2) throws Exception {
                return new Tuple2<>(value1.f0, value1.f1 + value2.f1);
            }
        });
        sumDS.print("sumDS  ->>>>>>>>>>>>>");
        //把所有分区合并，求出最大的访问量
        SingleOutputStreamOperator> maxDS = sumDS.keyBy(key -> true).reduce(new ReduceFunction>() {
            @Override
            public Tuple2 reduce(Tuple2 value1, Tuple2 value2) throws Exception {
                if (value1.f1 > value2.f1) {
                    return value1;
                } else {
                    return value2;
                }
            }
        });
        maxDS.print("maxDS ->>>>>>>>>>>");
        env.execute("TransReduceTest");
    }
}

到此这篇关于Flink实现特定统计的归约聚合reduce操作的文章就介绍到这了,更多相关Flink归约聚合内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

关键词：

上一篇:创建“上市公司高质量发展示范区” 江北底气何在下一篇:最后一页

Flink实现特定统计的归约聚合reduce操作_每日热讯

四川盆地至黄淮有强降雨 5日起京津冀等地高温将再度发展加强

人民网北京7月3日电（记者杨虞波罗）中央气象台预计，7月3日，四川盆地 [详细]

当前看点!旗木卡卡西为什么会从惊世天才沦落为最弱火影？

卡卡西自身的实力不弱，不亚于鹿丸的超高智商，敏捷的身手，拥有必杀一 [详细]

环球看点！欧几里得空间望远镜升空 探索宇宙暗物质和暗能量

欧几里得空间望远镜升空探索宇宙暗物质和暗能量- [详细]

呼和浩特武川县突发强降雨引发山洪，已致1人死亡、2人失联

7月2日中午，呼和浩特市武川县得胜沟乡倒反沟上游突发强降雨，引发山洪 [详细]

江苏国泰：6月30日获融资买入554.34万元，占当日流入资金比例18.85%-环球新视野

同花顺数据中心显示，江苏国泰6月30日获融资买入554 34万元，占当日买 [详细]

长源电力：6月30日融券卖出金额146.47万元，占当日流出金额的1.07%

同花顺数据中心显示，长源电力6月30日获融资买入2561 45万元，占当日买 [详细]

国内规模最大超高压跨江输变电工程建成投运 苏北“清洁电”跨江送苏南

（梅剑飞董莹）7月2日，国内规模最大的超高压跨越长江输变电工程——泰 [详细]

国内规模最大超高压跨江输变电工程建成投运 苏北“清洁电”跨江送苏南

（梅剑飞董莹）7月2日，国内规模最大的超高压跨越长江输变电工程——泰 [详细]

共享经济，“走到头”还是“刚上路”？

本报记者许愿张洁茹付奇“在南京老门东附近租了个充电宝，用了约一个小 [详细]

【世界时快讯】共享经济，“走到头”还是“刚上路”？

本报记者许愿张洁茹付奇“在南京老门东附近租了个充电宝，用了约一个小 [详细]

以一个连一串，金融“链”上制造业|环球短讯

本报记者崔昊通讯员张君茜“多亏了恒丰银行的供应链产品‘网络应收贷’ [详细]

开通邮政网上银行的流程图并进行说明（开通邮政网上银行）|速看料

1、打开中国邮政储蓄银行首页，点击右上角的“个人在线登录”按钮，等 [详细]

全球视讯！湖南九城德众汽车销售服务有限公司

1、湖南九城德众汽车销售服务有限公司于2012年01月12日成立。2、法定代 [详细]

天职师大“师生齐接力” 为建设文明津城文明校园作贡献

“我们要共创干净整洁、文明和谐的校园环境，用自己的实际行动，为建设 [详细]

苹果市值突破3万亿美元_环球看热讯

7月1日消息，美国当地时间周五，苹果市值有史以来首次收于3万亿美元以 [详细]

利润分享制的主要特点是什么？利润分享制的分红比例与方式是什么？

利润分享制的主要特点是什么?1、 劳动分红是对企业年终净利润的分配，属于企业内部再分配，一般不进入工资成本;而工资和奖金是预支的人工 [详细]

利润分享制表示什么意思？利润分享制的建立依据是什么？

利润分享制表示什么意思?利润分享制又称利润分红或劳动分红制，是指企业每年年终时，首先按比例提取一部分企业总利润构成分红基金，然后根 [详细]

大骚乱！这国市长遇袭 多人被捕 外交部紧急提醒！荒唐一幕：韩国议员组团喝海水

局势变得愈发危险。法国大骚乱上演了非常极端且危险的一幕。当地时间7 [详细]

公司运营成本应该如何计算？企业的运营成本一般包括哪些内容？

公司运营成本应该如何计算?运营成本也称经营成本、营业成本。是指企业所销售商品或者提供劳务的成本。营业成本应当与所销售商品或者所提供 [详细]

税收行政效率的概述的详细内容是什么？影响税收行政效率的因素是什么？

税收行政效率的概述的详细内容是什么?税收行政效率也叫税收征收效率，是指努力使税收行政优化，最大限度地减少国家征税对产业活动的额外负 [详细]

价税分离的正面效应是什么？价税分离的公式1+税率是什么意思？

价税分离的正面效应是什么?1、价税分离有利于完善发票管理。发票是购销商品、提供或接受劳务以及从事其他经营活动时具有法律效力的收付款凭 [详细]

宝胜股份：6月30日获融资买入192.33万元，占当日流入资金比例9.99% 当前看点

同花顺数据中心显示，宝胜股份6月30日获融资买入192 33万元，占当日买 [详细]

反映变现能力的指标主要是什么？企业变现能力差是普遍存在的问题是什么？

反映变现能力的指标主要是什么?反映变现能力的指标：(1)流动比率。它是反映企业流动资产总额和流动负债总额比例关系的指标。其计算公式为： [详细]

无形资产增加说明了什么？商誉是不是无形资产呢？

无形资产增加说明了什么?无形资产增加是会计意义上的无形资产增值，说明企业的软实力在增强，行业竞争力在增加。无形资产增值一般要经过有 [详细]

资产的变现能力指的是什么意思？可变现资产指的是什么意思？

资产的变现能力指的是什么意思?通俗地说，就是转化成现金的能力。例如，短期股票投资，变现能力就比较高，随时在工作日卖掉，就可以获得现 [详细]

固定资产属于可变现资产吗？固定资产清理的实质性程序是什么？

固定资产属于可变现资产吗?可变现资产是指可以转弯为现金的资产，例如主要包括：应收票据，存货，短期投资等比较容易出售变现的资产，固定 [详细]

破产资产财产清偿顺序是什么？破产债权的范围和破产财产的清偿顺序是什么？

破产资产财产清偿顺序是什么?(1)破产企业所欠职工工资和劳动保险费用;(2)破产企业所欠税款;(3)破产债权。破产财产依清偿顺序逐一分配，前一 [详细]

商业汇票的承兑指的是什么意思？商业汇票应该怎么付款？

商业汇票的承兑指的是什么意思?商业汇票的承兑：企业签付商业汇票，不论是商业承兑汇票还是银行承兑汇票，其到期价值即为票面价值。按照重 [详细]

银行承兑汇票的票据优点是什么？银行承兑汇票的相关业务是什么？

银行承兑汇票的票据优点是什么?1、对于卖方来说，对现有或新的客户提供远期付款方式，可以增加销售额，提高市场竞争力。2、对于买方来说， [详细]

转换基金买入后多长时间会撤单呢？基金转换之后反悔了可以撤单吗?

转换基金买入后多长时间会撤单呢?一旦完成转换基金的买入操作，通常情况下投资者是不能立即撤销该交易的。基金交易的确认时间和撤单规定可 [详细]

天利年金保险万能型条款有哪些？天利年金保险万能型好处是什么？

天利年金保险万能型条款有哪些?1 年金本合同生效满五年后，年金受益人可选择向本公司申请年金。如年金受益人申请年金的，自年金受益人提出 [详细]

金瑞人生21年金保险能退吗？金瑞人生21年金保险退保可以退多少钱？

金瑞人生21年金保险能退吗?能。金瑞人生21年金保险通常具有退保规定。根据合同条款和保险公司的政策，投保人可以选择在特定情况下解除合同 [详细]

同方全球人寿增额终身寿险好不好？同方全球人寿增额终身寿险值得买吗？

同方全球人寿增额终身寿险好不好?很好。同方全球人寿作为一家具备较高声誉和丰富经验的保险公司，在市场上享有良好的口碑和信誉。同方全球 [详细]

焦点消息！名城美景｜仪征•千亩荷塘 “荷”美相约

进入6月，江苏省扬州市仪征市新集镇天安村千亩荷塘里的荷花悄然绽放、 [详细]

百万医疗保险一年要交多少保费？买百万医疗险需要什么条件？

百万医疗保险一年要交多少保费?百万医疗保险的保费金额因保险公司、保险产品及投保人的具体情况而异。通常来说，保费金额会受到以下几个因 [详细]

每日速读!火箭圣诞澳门赛罕见；艾伦球风遭拒；小丁受邀

据黑格尔透露，澳门斯诺克大师赛将于12月25日至29日在永利皇宫举行。现 [详细]

车贷逾期不还需要承担的后果是什么？押车贷款有什么注意的？

车贷逾期不还需要承担的后果是什么？1、产生不良征信记录:若通过车辆金融机构获取车辆贷款，如果逾期，个人征信报告将会留下逾期记录，逾期 [详细]

一国汇率上升是升值还是贬值?外汇汇率上升会有哪些影响?

一国汇率上升是升值还是贬值?【1】直接标价法以本国货币来表示一定单位的外国货币的汇率表示方法。简单理解，就是N本币=1外币或N本币=100外 [详细]

医保亲情账户和家庭共济区别是什么？参保人想要使用家庭共济，需满足哪些条件？

医保亲情账户和家庭共济区别是什么?【1】医保亲情账户：它是指绑定在参保人医保账户上的家庭成员子账户。1、通过国家医保服务平台APP亲情账 [详细]

申联生物：6月30日获融资买入77.10万元，占当日流入资金比例8.45% 环球观天下

环球看点！欧几里得空间望远镜升空探索宇宙暗物质和暗能量

国内规模最大超高压跨江输变电工程建成投运苏北“清洁电”跨江送苏南

国内规模最大超高压跨江输变电工程建成投运苏北“清洁电”跨江送苏南

利润分享制的主要特点是什么?1、劳动分红是对企业年终净利润的分配，属于企业内部再分配，一般不进入工资成本;而工资和奖金是预支的人工 [详细]

大骚乱！这国市长遇袭多人被捕外交部紧急提醒！荒唐一幕：韩国议员组团喝海水

六寸戚风蛋糕的做法和配方_8寸戚风蛋糕的做法和配方世界即时看

中国基金报江右　　6月刚过完，消费电子龙头、白马股歌尔股份就发布了 [详细]

最简单的祛痘痘的方法是什么_最简单的去痘痘的方法热点评

右手定则内容_右手定则新资讯

不了解物流公司的某个岗位是干什么的，该怎么办？今日关注

看热讯：智己LS7辅助驾驶挑战上海高架晚高峰

受益于行业周期上升中国重汽上半年净利润预增45%至65%