安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211024561.6 (22)申请日 2022.08.25 (71)申请人 国网江苏省电力有限公司 地址 210000 江苏省南京市上海路215号 申请人 南京通衡信息科技有限公司   葛亚明 (72)发明人 葛亚明 赵玉林 戴上 李艺丰  周航 王余阳 李蓝青 王博仑  (51)Int.Cl. G06F 16/2458(2019.01) G06K 9/62(2022.01) G06Q 50/06(2012.01) (54)发明名称 一种针对电网数据的关键特 征选择方法 (57)摘要 本发明提供一种针对电网数据的关键特征 选择方法。 所述针对电网数据的关键特征选择方 法包括: 电网数据, 所述电网数据包括以下步骤: S1.利用电力系统的潮流特征量建立特征描述 集; S2.利用K-means聚类算法根据计算节点的 数量对所有特征进行聚类; S3.特征选择的核心 内容是评价函数的制定; S4.在分布式节点上合 并所选要素。 本发明提供的针对电网数据的关键 特征选择方法具有精度高、 耗时少、 稳定性好的 优点, 这种分布式特征选择算法可以在一定程度 上缓解电力系统运行大数据中的维数灾难问题, 快速准确地挖掘出电网运行的薄弱点, 帮助电网 运行人员掌握电网安全运行特征, 避免电网运行 事故发生的优点。 权利要求书2页 说明书5页 附图2页 CN 115408444 A 2022.11.29 CN 115408444 A 1.一种针对电网数据的关键特 征选择方法, 其特 征在于, 包括: 电网数据, 所述电网数据包括以下步骤: S1.利用电力系统的潮流特 征量建立特 征描述集; S2.利用K ‑means聚类算法根据计算节点的数量对所有特 征进行聚类; S3.特征选择的核心内容是评价 函数的制定; S4.在分布式节点上合并所选要素。 2.根据权利要求1所述的针对电网数据的关键特征选择方法, 其特征在于: 所述电网数 据的计算如下: (1).对于某一时间段的实际运行状态和仿真状态, 利用电力系统 的潮流特征量建立特 征描述集F, 公式如下: F={f1, f2,…, fn} 上述公式中, 其中n是特征的数量, fi是样本的第i个 特征, 在特征聚类完成之后, 在单个 计算节点上, 在Fsub上进行分布式特征选择, 特征选择过程通常包括子集生 成、 评价函数、 停 止标准和验证过程。 3.根据权利要求2所述的针对电网数据的关键特征选择方法, 其特征在于: 所述特征选 择是从大量原始特征中, 选择有效特征并降低特征维数 的有效算法, 首先从特征全集中生 成特征子集, 然后用评价函数对 特征子集进 行评价, 再将 评价结果与 停止标准进 行比较, 如 果评价结果满足标准, 则该 过程停止, 否则它继续 生成下一组特 征子集并执 行特征选择。 4.根据权利要求1所述的针对电网数据的关键特征选择方法, 其特征在于: 所述K ‑ means聚类算法可根据计算节点的数量对 所有特征进 行聚类, 所述K ‑means聚类算法是一种 典型的基于距离的聚类算法, 它以距离作为相似性的评价指标, 即两个对象越接近, 相似性 越大, 选择欧氏距离作为衡量两个特 征之间相似性的指标, 公式如下: dij=||fi‑fj|| 上述公式中, 其中dij表示两个特征之间的欧几里德距离, 该类由紧密间隔的对象组成, 并且最终的训练目标是获得紧凑且独立的类, 在聚类过程中, 需要手动指定聚类类别的数 量, 并使用每 个类别中所有对象的平均值作为该类的聚类中心, 公式如下: 上述公式中, 其中Ck是第k个类的聚类中心, nk是第k个类中聚类对象的个数fi是第k个 类中的第i个对象; 随机选择任意m个对象作为初始聚类中心, 此后在每次迭代中, 数据集中的每个剩余对 象, 根据其与每个类中心的距离被重新分配到最近的类, 当已经检查了所有数据时, 迭代计 算完成, 并且计算 新的聚类中心, 如果聚类的结果在迭代后不再改变, 则该算法已经收敛; 为了选择分布式特征, 聚类算法选择系统计算节点数的整数倍作为聚类数, 以提高整 体计算效率, 在聚类之后, 原 始特征集F被分成m个子类, 公式如下: F={Fsub1, Fsub2,…, Fsubm} 其中m是聚类数, Fsubi是聚类过程后生成的第i个子类。 5.根据权利要求1所述的针对电网数据的关键特征选择方法, 其特征在于: 所述特征选权 利 要 求 书 1/2 页 2 CN 115408444 A 2择的核心内容是评价函数 的制定, 使用信息增 益评估算法来评估是否应该选择候选特征, 对于离散随机变量X={X1, X2,…, XN}, 定义信息熵H(X): 上述公式中, 其中X是随机变量, N是样本数, pi是Xi的概率, 信息熵衡量 随机变量X 的混 乱程度, 如果X的分布越规则, 其信息熵的值就越小, 反之如果X的分布越混合, 信息熵的值 就越大; 基于信息熵, 另一个随机变量是已知的Y=yi, X的条件信息熵定义如下: IG(X|Y)=H(X) ‑H(X|Y) 上述公式中, 其中, IG(X|Y)表示包含在Y中的信息和包含在X中的信息之间的一致程 度, 该值越 大, 信息一致程度越高, 如果X是目标属性, Y是要选择的特征, IG(X|Y)的值越 大, 要选择的特征Y越有效, 因此特征选择评价函数是一个特征集, 当所选特征的数量固定时, 其搜索最大化信息熵; 在分布式节点上合并所选要素, 首先聚类后将原始特征集F分成m个子类, 其次对m个子 类完成分布式特征选择, 最后, 组合每个节点的选定特征, 以获得最终的关键特征, 公式如 下: FKey={FKeySub1, FKeySub2,…, FKeySubm} 上述公式 中, 其中FKey是关键特 征集, FKeySubi是第i个节点的选 定特征集。权 利 要 求 书 2/2 页 3 CN 115408444 A 3

.PDF文档 专利 一种针对电网数据的关键特征选择方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种针对电网数据的关键特征选择方法 第 1 页 专利 一种针对电网数据的关键特征选择方法 第 2 页 专利 一种针对电网数据的关键特征选择方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 06:37:38上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。