Appearance
数据处理
数据集可以包含来自不同来源的数据,这些数据被整合、清洗、转换,最终输出为一张数据集合(数据表),以便于进行查询和分析。
场景代入 有助于了解数据集!
在了解数据集功能之前,我们先进入一个场景
场景:1栋办公楼、5层、每层有5个房间,每个房间有1块电表分别计量总的电量
需求:我们需要统计出每个房间、每层楼、整栋楼的耗电量以及对应的电费,然后按照日报、周报、月报、季报进行统计
实现步骤:
1、变量存储,按照每小时存储1条记录,存储的数据为电量累计值。内部存储规则为:1个变量1张数据库表
2、在数据集中对数据进行电能统计、楼层分类、房间分类、电费计算,形成一张完整的数据表
将存储的25个变量合并到一张表
添加变量上下合并节点
选择差值,自动计算每个小时的差值,计算规则举例:13点的电能用量=14:00值-13:00值
将数据标记对应的楼层、对应的房间,根据变量的名称通过分隔符进行字段拆分
将拆分的两个公式列命名为楼层和病房
计算每个小时的电能费用
输出最终的表
3、在画面编辑器中对数据集中生成的表进行展示
总结: 以上过程我们会发现数据的处理全部都在数据集中完成,从变量的选择、差值的计算、数据的标记、电费的计算等等操作,操作完成之后,输出了一张最终的表格,在画面编辑器中展示的所有数据来源都是这张表格。
创建数据集
首先创建数据集,可以进行自定义分类
名词解释
静态数据集:数据不会随着时间的变化而增长,往往用于关系类数据
增长数据集:数据根据时间进行增长,往往用于变量类数据
周期:针对增长数据集数据,不支持太密集的秒级数据进入数据分析,故而需要对数据进行间隔取样。取样的周期:分钟、小时、天。
周期 | 时间段 |
---|---|
分钟 | 1、5、10、30 |
小时 | 1、12 |
天 | 1 |
范围:默认全部时间段,如果只需要某个时间段的数据则进行设置即可。
编辑数据集
必要条件: 数据输入、数据输出、数据发布
数据集功能分为4个节点、15项功能
数据输入 | 数据预处理 | 数据转换 | 数据输出 |
---|---|---|---|
变量上下合并 | 公式列 | 聚合 | 数据输出 |
变量左右合并 | 赋值列 | 转置 | |
静态数据源 | 条件列 | 左右合并 | |
增长数据源 | 过滤 | 上下合并 | |
合并字段 | |||
拆分字段 |
数据输入
变量上下合并
针对的参与存储的变量,存储的方法参考存储管理,将两个及两个以上变量上下合并为同一张表,数据在列上扩展。遵循的规则:按照相同的字段合并
示例
1、选择变量
选择需要参与分析的变量,支持搜索和多选
2、选择维度
选择变量需要参与的属性
名词介绍
名词 | 说明 |
---|---|
最大值 | 按照数据集的抽样周期为单位抽取最大值,示例:变量1秒/次,数据基抽样周期1分钟,那么从60条记录里面取1条最大值 |
最小值 | 按照数据集的抽样周期为单位抽取最小值,示例:变量1秒/次,数据基抽样周期1分钟,那么从60条记录里面取1条最小值 |
起始值 | 按照数据集的抽样周期为单位抽取起始值,示例:变量1秒/次,数据基抽样周期5分钟,起始值分别为:00:00、05:00、10:00 |
结束值 | 按照数据集的抽样周期为单位抽取起始值,示例:变量1秒/次,数据基抽样周期5分钟,起始值分别为:05:00、10:00、15:00 |
平均值 | 按照数据集的抽样周期为单位计算平均值,示例:变量1秒/次,数据基抽样周期1分钟,那么60条记录相加/60,计算出平均值 |
总和 | 按照数据集的抽样周期为单位计算求和值,示例:变量1秒/次,数据基抽样周期1分钟,那么60条记录相加,计算出总和 |
条数 | 按照数据集的抽样周期为单位计数,示例:变量1秒/次,数据基抽样周期1分钟,那计数为60 |
差值 | 按照数据集的抽样周期为单位,用最小值-最大值,示例:变量1秒/次,数据基抽样周期1分钟,差值为:01:00-00:00 |
分组后总数量 | |
扩展 | 变量的扩展字段,相当于对变量的一种标记或者分组,具体使用方式 参考变量管理 |
示例
波峰电压/波峰电流:最大值
波谷电压/波谷电流:最小值
抄表数据:结束值
开机数据:起始值
分钟温度趋势:平均值
每天的用电量:每小时电量的差值总和
同一个状态发生的次数:条数
使用电量/使用水量:差值
3、同步数据
同步数据操作会从数据库随机拉取部分的数据,形成临时表、用于展示当前合并的结果样式
4、保存
保存当前的操作步骤,不会生成最终的数据集
变量左右合并
针对的参与存储的变量,存储的方法参考存储管理,将两个及两个以上变量左右合并为同一张表,数据在行上扩展。遵循的规则:按照相同的字段关联
示例
操作步骤以及名称解释参考变量上下合并
静态数据源
数据不随时间的增长而增长的数据源,也称之为静态数据。常用于Excel表格,或者第三方静态数据库。
增长数据源
数据会随时间的增长而增长的数据源,也称之为动态数据。常用于变量存储,或者第三方动态数据库。
数据预处理
公式列
如果您需要对某一列的数据进行计算,那么就需要用到公式列,输入对应的计算规则,然后会在原来的表在新增一列出来。
支持的计算公式:
示例
根据电量计算电费
根据电量乘以系数0.6计算电费,操作步骤如下:
支持新增列的重命名
赋值列
如果您需要根据某一列的内容进行静态分类,那么就需要用赋值列实现此功能。
1、例如:5台电表中的3台属于办公区域、2台属于生产区域。
2、例如:实际电量超过计划用电,则标记用电异常;
条件列
如果您需要根据某一列的内容进行动态分类,那么就需要用条件列实现此功能。
1、例如:对用电量超过3000标记为高用电、1000~3000标记为正常用电、低于1000标记为低用电
2、例如:对用电量超过3000以上部分,电费按照1元计费,低于3000部分6毛计费
过滤
过滤的目的是减少数据的复杂性,只展示与分析目标最相关的信息。通过过滤,您可以排除不相关或不重要的数据,从而更清晰地识别数据中的模式、趋势和异常
此功能不支持按照日期过滤,需要实现日期过滤,可以在画面编辑器里面实现。
1、例如:月用电低于100,属于电损,不参与统计
2、例如:计算3楼电表的时候,其他楼层电表不参与统计
合并字段
如果您需要将两个字段合并为一个字段,那么就需要使用合并字段功能,合并的字段格式包含:数值、字符串、日期
例如:日期的年月日和时间是分成多列的,通过合并字段添加分隔符“-”将时间合并为一列
拆分字段
如果您需要将1个字段拆分为多a个字段,那么就需要使用拆分字段功能。拆分的字段格式包含:数值、字符串、日期;拆分的方式:分隔符和索引
分隔符:根据内容的标识作为分隔。
索引:根据内容的第几位进行拆分
1、例如:将日期的年月日拆分为:年、月、日用于按年、月、日进行数据统计
2、例如:将变量的名称按照楼层进行拆分,便于分区统计
数据转换
聚合
聚合是对数据进行汇总和计算的过程。这个过程涉及到对大量数据进行数学运算,求和、平均值、最大值、最小值、计数等,以得到数据的总体趋势和模式。聚合的目的是从大量复杂的数据中提取出有用的信息,帮助企业做出更准确的决策。
对于数值数据,可以按照日期执行求和、平均、最大值、最小值、差值、起始值、结束值等运算;
对于文本数据,可以执行计数
示例:电能变量是总电量,每小时存储一次,电能变量的数值是永远根据实际电量消耗递增的。
1、果需要统计每小时的电能消耗,则需要通过聚合取差值。
2、如果需要计算每天的耗电量,则可以通过聚合取每小时差值的求和,也可以通过聚合取每天的差值。
转置
“转置”是将数据表中的行和列进行互换的操作。这种操作在数据处理和分析中非常有用,因为它可以改变数据的布局,使得数据的阅读和理解更加符合特定的分析需求。
行转列
- 将数据展示为更直观的数据
- 操作步骤
列转行
- 将数据转换为更易于分析的数据
- 操作步骤
左右合并
“左右合并”是将数据源按照相同的字段进行合并,以建立不同数据表之间的关系。这种关系使得数据能够在不同表之间进行有效的连接和导航,从而支持复杂的数据分析和报表生成
- 例如A有1F~5F分别1号房间的电能消耗,表B有4F~6F分别2号房间的电能消耗,合并为一张表
名词解释
名词 | 说明 |
---|---|
左链接 | 以表A为基准 |
右链接 | 以表B为基准 |
内链接 | 对表A、B取交集 |
全链接 | 对表A、B取并集 |
- 将两张表左右合并为同一张表,操作步骤如下:
上下合并
"上下合并"是将来自不同数据源的数据集合并成一个统一的数据集,以便进行分析和可视化。这一过程对于创建全面的报表和仪表板至关重要,因为它可以将分散在不同数据库、文件或应用中的信息整合起来,以获得更完整的业务洞察
例如表A有1F~3F分别3个房间的电能消耗,表B有4F~6F分别4个房间的电能消耗,合并为一张表
将两张表上下合并为同一张表,操作步骤如下:
数据输出
数据集的最后一个节点,将数据关联到该节点,然后点发布,后台任务将从数据库拉出全部数据组装并生成一张新表。