电力大数据流实时处理技术分析

  • 来源:中国高新科技
  • 关键字:多数据流,实时处理,流计算
  • 发布时间:2022-08-15 13:25

  摘要:为了充分发挥实时数据采集的重要作用和价值,需要不断提升大规模实时数据流处理技术水平,满足对大规模电网数据流进行实时处理的要求。文章结合大数据实时处理技术的发展现状,阐述电力大数据流计算服务体系和计算技术框架,针对多数据流相关系数计算以及数据流实时处理计算方法展开探讨,供相关人员参考。

  电网业务大数据因采集性能良好,在电网终端采集设备中得以广泛应用。为充分发挥实时数据采集的重要作用和价值,需不断提升大规模实时数据流处理技术水平,满足对大规模电网数据流进行实时处理的要求。现阶段使用的电力大数据处理方式仍存在一些问题,在电力系统大数据流工作中依然使用“先存储,后设计”的理论方法,该方法易对系统的可扩展性、容错性和状态一致性等方面产生一定影响。大规模电网的数据流数据信息繁杂,具有较高的实时性和无序性,给大数据信息的采集和处理工作带来了很大难度。

  1 电力大数据流计算服务体系

  电力大数据流计算服务体系主要分为四个部分,分别是应用服务、分析服务、编程服务和监控服务,其设计初衷是减少分布式多数据流处理技术中不重要的技术细节,降低数据流处理工作的复杂程度,有效提升数据流计算能力,提高数据流在线分析能力,对多类数据来源的关联分析进行有效融合,对流处理的资源进行有效管理和部署,结合用户的实际需求和用户的具体行为为不同层面的流计算提供服务。

  1.1 应用服务

  通过对电力业务应用特征的分析可以发现,数据流处理工作中存在诸多问题,其中比较显著的问题有检测存在异常、在线转换清洗、时间窗口统计和在线模型训练等。根据处理类型的差别提供可以调节使用的服务接口,通过分析、计算和资源监控等满足具体的数据处理要求,从而使封装之后的处理模型得到有效应用。电力业务人员需要将数据流进行有序处理,包括相关的检测、统计,相应的程序处理,数据的传送、下达以及封装等内容,并将封装好的模型进行进一步的处理应用。

  1.2 分析服务

  分析服务可以为分析人员提供科学合理的数据流分析算法,帮助他们创建模型并对模型进行分析评估,实现模型流程发布和流程管理等目的。分析算法分为两种:一种是单数据流的在线随机优化算法;另一种是多数据流的协同分析算法。模型构建主要是通过对数据信息的挖掘建立相应的模型,模型评估主要是全面分析数据挖掘模型,根据分析结果对数据模型的准确性做出正确判断,然后根据得到的评估结果改进和优化各项参数。模型流程发布指的是将数据挖掘模型流程发布出来,使电力业务应用系统可以对流式数据进行处理,以提高数据处理工作的时效性。模型流程管理主要针对管理平台中的数据挖掘模型,为模型的挖掘流程提供服务,通常包括版本管理和停用预测等。

  1.3 编程服务

  电力应用开发人员为编程工作提供服务,提供多种类型的编程接口,如计算任务分配和调度、分布式消息队列输入、流处理初始化和数据转换等,从而有效提升应用开发工作水平和效率。开发工作人员把实时处理逻辑加入相应的编程接口,并合理设置各项参数,通过处理平台将编写好的程序发布出来,对计算任务进行部署和应用。

  1.4 监控服务

  监控服务的服务对象主要是电力运维管理人员,应用这种服务可以对电力大数据实时流计算处理平台进行监控,帮助管理人员充分掌握数据规模、了解数据处理进度、分析资源占用情况等,并能定期向分级资源管理器提供掌握的上述信息。分级资源管理器可以将这些信息实时传送到中心资源管理器,确保数据传输的实时性和高效性。电力运维管理人员可以依据这些信息了解相关计算任务和数据信息的处理情况。

  2 电力大数据流计算技术框架

  应用先进技术创建电力大数据实时流计算处理平台,通过此平台可以实时采集数据信息,并对采集到的数据进行分析和计算,具备良好的数据存储功能。

  2.1 实时采集数据信息

  开展电力大数据的分析和计算工作需要具备相应的数据信息支持,数据采集是数据分析计算的重要基础。同时,数据采集效率也十分重要,能够确保数据信息采集的时效性,可为之后的数据处理和模型创建提供有力支持。为了同步开展数据采集工作和数据处理工作,避免数据信息出现误差,需设置数据缓存区。缓存区分为两种形式:一种是内存缓存;另一种是文件缓存。通过这两种缓存形式能够有效提升数据处理工作效率,处理过程也十分安全。

  2.2 实时计算数据信息

  通过采集工作获得数据后,需要对这些数据进行有效处理。数据处理工作通过计算平台完成,让电网数据流通过滑动窗口进行输入,并科学使用多数据流协同计算方法实现处理多数据流的目的。

  2.3 高效存储数据信息

  数据比较复杂或需要存储的数据比较庞大,需要对数据进行分流;数据比较简单或需要存储的数据较小,则可以直接保存在数据库中。同样,还需要采用合适的方式进行数据存储,避免对数据信息造成损害。利用分布式消息队列 Kafka 作为缓冲地带,把数据保存到数据库,虽然方法较复杂,但能够有效提升安全性和稳定性,数据信息也可以得到有效保护,能够避免出现数据丢失问题。

  3 多数据流相关系数计算

  电力系统可以成功采集大数据流,这种大数据流由多种数据信息组合而成,不但可以利用状态监测功能将介损因数、容漏率、满电流、三次谐波和避雷器阻性电流数据确定下来,还可以对开关柜的具体工作状态进行实时监测,全面掌握运行过程中产生的数据信息。因为状态监测数据流比较复杂,需要占用大量的储存空间,所以还要提高存储空间的利用效率。为了进一步提升多数据流相关系数的精确性,需要先合理设置多条数据流,然后对不同的数据流进行组合,最后形成相关矩阵。

  4 电力多数据协同计算

  以窗口法为基础依据建立滑动窗模型,这种模型可以对两种不同粒度的时间单元进行定义:一种是基本窗口滑动;另一种是数据采集滑动。另外,可在上述基础上建立跨总线四层时序空间模型,模型分为四层不同的时序:

  第一层时序为IO 数据提供缓冲窗口,使全部数据的安全标识符保持一致,把这些标识符加在一起就能对数据到达情况做出正确判断。

  第二层时序存在缓冲层,由于不同的设备之间需要进行数据交换,所以缓冲层的实际作用是有效减少数据交换次数,提高数据交换效率。

  第三层时序的作用是利用缓冲层把新的滑动窗口保存到存储器中,可以对不同数据流的实际增量进行维护,并让这些信息进入信息库。

  第四层时序的作用是存储截面矩阵数据,对比较复杂的数据流进行挖掘。

  通过并行计算机架构和算法模块能够对多数据流进行并行处理,不同数据流需要的计算体系也不相同,所以需要具备多种计算体系,从而为系统之间的连接提供便利。此外,还可以通过划分数据流得到不同的数据块,并由不同的 Workers 处理不同的数据块。如果继续细分就会形成下一级服务器,也可以对这些服务器进行分区,经过上面的几次划分进一步提升数据的处理效率。

  5 结语

  随着我国电网建设规模的不断扩大,对电力行业的数据采集和数据处理能力提出了更高的要求。为了充分发挥电网数据的自身价值,需要不断提升数据采集和处理工作的水平和效率。但从目前的实际情况来看,电力系统大数据分流所采用的理论方法较为传统,无法满足数据信息采集和处理工作要求。为了改变当前的不良局面,有效提升大数据实时处理水平,需要科学合理地应用多数据流实时处理技术,并在之后的工作中针对该技术进行深入研究,以不断提高应用水平和效率,促进我国电力行业的健康稳定发展。

  (作者单位:1.国网安徽省电力有限公司经济技术研究院; 2.国网安徽省电力有限公司)

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: