Skip to content

数据处理

数据集可以包含来自不同来源的数据,这些数据被整合、清洗、转换,最终输出为一张数据集合(数据表),以便于进行查询和分析。

场景代入 有助于了解数据集!

在了解数据集功能之前,我们先进入一个场景

场景:1栋办公楼、5层、每层有5个房间,每个房间有1块电表分别计量总的电量

需求:我们需要统计出每个房间、每层楼、整栋楼的耗电量以及对应的电费,然后按照日报、周报、月报、季报进行统计

能耗报表

实现步骤:

1、变量存储,按照每小时存储1条记录,存储的数据为电量累计值。内部存储规则为:1个变量1张数据库表 能耗存储

2、在数据集中对数据进行电能统计、楼层分类、房间分类、电费计算,形成一张完整的数据表

  • 将存储的25个变量合并到一张表

  • 添加变量上下合并节点

  • 选择差值,自动计算每个小时的差值,计算规则举例:13点的电能用量=14:00值-13:00值 能耗变量合并

  • 将数据标记对应的楼层、对应的房间,根据变量的名称通过分隔符进行字段拆分

  • 将拆分的两个公式列命名为楼层和病房 能耗变量拆分

  • 计算每个小时的电能费用 能耗电费计算能耗电费计算

  • 输出最终的表 能耗最终表

3、在画面编辑器中对数据集中生成的表进行展示

能耗最终展示

总结: 以上过程我们会发现数据的处理全部都在数据集中完成,从变量的选择、差值的计算、数据的标记、电费的计算等等操作,操作完成之后,输出了一张最终的表格,在画面编辑器中展示的所有数据来源都是这张表格。

创建数据集

首先创建数据集,可以进行自定义分类 创建数据集创建数据集

名词解释

静态数据集:数据不会随着时间的变化而增长,往往用于关系类数据

增长数据集:数据根据时间进行增长,往往用于变量类数据

周期:针对增长数据集数据,不支持太密集的秒级数据进入数据分析,故而需要对数据进行间隔取样。取样的周期:分钟、小时、天。

周期时间段
分钟1、5、10、30
小时1、12
1

范围:默认全部时间段,如果只需要某个时间段的数据则进行设置即可。

编辑数据集

必要条件: 数据输入、数据输出、数据发布

编辑数据集

数据集功能分为4个节点、15项功能

数据输入数据预处理数据转换数据输出
变量上下合并公式列聚合数据输出
变量左右合并赋值列转置
静态数据源条件列左右合并
增长数据源过滤上下合并
合并字段
拆分字段

数据输入

变量上下合并

针对的参与存储的变量,存储的方法参考存储管理,将两个及两个以上变量上下合并为同一张表,数据在列上扩展。遵循的规则:按照相同的字段合并

示例

变量合并示例

变量合并操作 1、选择变量

选择需要参与分析的变量,支持搜索和多选

2、选择维度

选择变量需要参与的属性

名词介绍

名词说明
最大值按照数据集的抽样周期为单位抽取最大值,示例:变量1秒/次,数据基抽样周期1分钟,那么从60条记录里面取1条最大值
最小值按照数据集的抽样周期为单位抽取最小值,示例:变量1秒/次,数据基抽样周期1分钟,那么从60条记录里面取1条最小值
起始值按照数据集的抽样周期为单位抽取起始值,示例:变量1秒/次,数据基抽样周期5分钟,起始值分别为:00:00、05:00、10:00
结束值按照数据集的抽样周期为单位抽取起始值,示例:变量1秒/次,数据基抽样周期5分钟,起始值分别为:05:00、10:00、15:00
平均值按照数据集的抽样周期为单位计算平均值,示例:变量1秒/次,数据基抽样周期1分钟,那么60条记录相加/60,计算出平均值
总和按照数据集的抽样周期为单位计算求和值,示例:变量1秒/次,数据基抽样周期1分钟,那么60条记录相加,计算出总和
条数按照数据集的抽样周期为单位计数,示例:变量1秒/次,数据基抽样周期1分钟,那计数为60
差值按照数据集的抽样周期为单位,用最小值-最大值,示例:变量1秒/次,数据基抽样周期1分钟,差值为:01:00-00:00
分组后总数量
扩展变量的扩展字段,相当于对变量的一种标记或者分组,具体使用方式 参考变量管理
示例

波峰电压/波峰电流:最大值

波谷电压/波谷电流:最小值

抄表数据:结束值

开机数据:起始值

分钟温度趋势:平均值

每天的用电量:每小时电量的差值总和

同一个状态发生的次数:条数

使用电量/使用水量:差值

3、同步数据

同步数据操作会从数据库随机拉取部分的数据,形成临时表、用于展示当前合并的结果样式

4、保存

保存当前的操作步骤,不会生成最终的数据集

变量左右合并

针对的参与存储的变量,存储的方法参考存储管理,将两个及两个以上变量左右合并为同一张表,数据在行上扩展。遵循的规则:按照相同的字段关联

示例

变量关联示例

变量左右合并

操作步骤以及名称解释参考变量上下合并

静态数据源

数据不随时间的增长而增长的数据源,也称之为静态数据。常用于Excel表格,或者第三方静态数据库。

静态数据源

增长数据源

数据会随时间的增长而增长的数据源,也称之为动态数据。常用于变量存储,或者第三方动态数据库。

增长数据源

数据预处理

公式列

如果您需要对某一列的数据进行计算,那么就需要用到公式列,输入对应的计算规则,然后会在原来的表在新增一列出来。

支持的计算公式:

示例

根据电量计算电费 公式列示例

根据电量乘以系数0.6计算电费,操作步骤如下: 公式列示例

支持新增列的重命名

赋值列

如果您需要根据某一列的内容进行静态分类,那么就需要用赋值列实现此功能。

1、例如:5台电表中的3台属于办公区域、2台属于生产区域。

赋值列内容分类

2、例如:实际电量超过计划用电,则标记用电异常;

赋值列示例1

条件列

如果您需要根据某一列的内容进行动态分类,那么就需要用条件列实现此功能。

1、例如:对用电量超过3000标记为高用电、1000~3000标记为正常用电、低于1000标记为低用电

条件列示例1

2、例如:对用电量超过3000以上部分,电费按照1元计费,低于3000部分6毛计费

条件列示例2

过滤

过滤的目的是减少数据的复杂性,只展示与分析目标最相关的信息。通过过滤,您可以排除不相关或不重要的数据,从而更清晰地识别数据中的模式、趋势和异常

此功能不支持按照日期过滤,需要实现日期过滤,可以在画面编辑器里面实现。

1、例如:月用电低于100,属于电损,不参与统计 过滤示例1

2、例如:计算3楼电表的时候,其他楼层电表不参与统计 过滤示例2

合并字段

如果您需要将两个字段合并为一个字段,那么就需要使用合并字段功能,合并的字段格式包含:数值、字符串、日期

例如:日期的年月日和时间是分成多列的,通过合并字段添加分隔符“-”将时间合并为一列 合并字段示例1合并字段示例2

拆分字段

如果您需要将1个字段拆分为多a个字段,那么就需要使用拆分字段功能。拆分的字段格式包含:数值、字符串、日期;拆分的方式:分隔符和索引

分隔符:根据内容的标识作为分隔。

索引:根据内容的第几位进行拆分

1、例如:将日期的年月日拆分为:年、月、日用于按年、月、日进行数据统计 拆分字段示例1

2、例如:将变量的名称按照楼层进行拆分,便于分区统计 拆分字段示例2

数据转换

聚合

聚合是对数据进行汇总和计算的过程。这个过程涉及到对大量数据进行数学运算,求和、平均值、最大值、最小值、计数等,以得到数据的总体趋势和模式。聚合的目的是从大量复杂的数据中提取出有用的信息,帮助企业做出更准确的决策。

  • 对于数值数据,可以按照日期执行求和、平均、最大值、最小值、差值、起始值、结束值等运算;

  • 对于文本数据,可以执行计数

示例:电能变量是总电量,每小时存储一次,电能变量的数值是永远根据实际电量消耗递增的。

1、果需要统计每小时的电能消耗,则需要通过聚合取差值。 聚合示例

2、如果需要计算每天的耗电量,则可以通过聚合取每小时差值的求和,也可以通过聚合取每天的差值。

聚合示例1

转置

“转置”是将数据表中的行和列进行互换的操作。这种操作在数据处理和分析中非常有用,因为它可以改变数据的布局,使得数据的阅读和理解更加符合特定的分析需求。

行转列

  • 将数据展示为更直观的数据

行转列

  • 操作步骤

行转列操作1

列转行

  • 将数据转换为更易于分析的数据

列转行

  • 操作步骤

列转行操作1

左右合并

“左右合并”是将数据源按照相同的字段进行合并,以建立不同数据表之间的关系。这种关系使得数据能够在不同表之间进行有效的连接和导航,从而支持复杂的数据分析和报表生成

  • 例如A有1F~5F分别1号房间的电能消耗,表B有4F~6F分别2号房间的电能消耗,合并为一张表
  • 关联示例

名词解释

名词说明
左链接以表A为基准
右链接以表B为基准
内链接对表A、B取交集
全链接对表A、B取并集
  • 将两张表左右合并为同一张表,操作步骤如下: 关联操作

上下合并

"上下合并"是将来自不同数据源的数据集合并成一个统一的数据集,以便进行分析和可视化。这一过程对于创建全面的报表和仪表板至关重要,因为它可以将分散在不同数据库、文件或应用中的信息整合起来,以获得更完整的业务洞察

  • 例如表A有1F~3F分别3个房间的电能消耗,表B有4F~6F分别4个房间的电能消耗,合并为一张表 合并示例

  • 将两张表上下合并为同一张表,操作步骤如下: 合并操作

数据输出

数据集的最后一个节点,将数据关联到该节点,然后点发布,后台任务将从数据库拉出全部数据组装并生成一张新表。

数据输出

SCADA帮助文档