基于熵权法实现变压器动态权重的计算
1. 熵权法是什么
要理解熵权法,需分两步:先理解信息熵,再理解如何用熵来赋权。
1.1 第一步:什么是“信息熵”
信息熵理论(Information Entropy Theory)是信息论(Information Theory)的核心概念之一,由美国数学家克劳德·香农(Claude Shannon)在1948年提出,用于量化信息的不确定性或混乱程度。它最初用于通信领域,如今已广泛应用于统计学、机器学习、物理学、经济学、生态学等多个学科,是现代数据科学中量化信息、构建模型、赋予权重的重要理论依据。
信息熵是衡量“不确定性”或“信息含量”的数学工具——越随机,熵越大;越确定,熵越小。
📌1.1.1 什么是“信息熵”
-
熵越高 →结果难以预测 → 系统越“混乱”或“不确定” → 提供的有效信息越少
-
熵越低 → 结果容易预测 → 系统越“有序” → 提供的有效信息越多
🌰 举例:
- 抛一枚均匀硬币(正反各50%):结果最难猜 → 熵最大
- 抛一枚两面都是正面的硬币:结果总是正面 → 完全确定 → 熵为0
📌1.1.2 数学定义(离散情形)
设某指标在 n 个样本中有概率分布 p1,p2,…,pn(∑pi=1),则其信息熵为:
为便于比较,常将熵归一化到 [0, 1] 区间:
- 当所有 pi=1/n(完全均匀)→ e=1e=1(最大不确定性)
- 当某个 pi=1,其余为0(完全确定)→ e=0
1.2 第二步:什么是熵权法?
熵权法(Entropy Weight Method, EWM)是一种**基于信息熵的客观赋权方法,用于多指标综合评价。
📌1.2.1 核心思想
一个指标在不同样本中的取值越分散(差异越大),说明它提供的信息越多,区分能力越强,因此应赋予更高的权重;反之,若取值几乎相同,则信息量少,权重应降低。
而信息熵正好能量化这种“分散程度”:
指标表现 | 分布情况 | 熵 | 信息量 | 权重 |
---|---|---|---|---|
数据差异大(能分好坏) | 不均匀 | 小 | 大 | 高 |
数据差不多(分不出) | 均匀 | 大 | 小 | 低 |
因此,权重与熵成反比,熵不是衡量“数据乱不乱”,而是衡量“这个指标有没有用”。越“有用”(能区分),熵越小,权重越高。
🌰 举例:评选员工
假设你要评选“最值得奖励的员工”,看两个指标:
- 加班时长:A加了2小时,B加了50小时,C加了3小时 → 差别很大
- 打卡准时率:A、B、C 都是99% → 几乎一样
👉 你会更看重哪个指标?
当然是加班时长!因为它能帮你区分谁更努力。
📌1.2.2 权重计算公式
-
对每个指标 j,计算其归一化信息熵 ej∈[0,1]
-
定义其“信息效用值”为 dj=1−ej
-
最终权重为:
-
结果:wj≥0,且 ∑wj=1
-
完全由数据驱动,无需专家打分
🌰举例(变压器测评)
变压器 | 乙炔含量(ppm) | 油温(℃) |
---|---|---|
A | 0.1 | 65 |
B | 1.5 | 66 |
C | 0.2 | 64 |
- 乙炔:0.1 → 1.5 → 0.2(差异大)→ 熵小 → 权重高
- 油温:64~66(几乎不变)→ 熵接近1 → 权重低
→ 熵权法会自动让“乙炔”在综合评分中起主导作用,因为它更能反映设备状态的差异。
2. 熵权法的原则和本质
2.1 数据驱动原则
- 权重由原始数据的离散程度决定
- 不依赖专家打分,避免主观偏差
2.2 动态权重的本质
- 权重随数据变化而自动调整
- 每次输入新数据 → 重新计算权重 → 实现“动态更新”
- 适用于实时监控、滚动评估等场景
3. 熵权法计算动态权重的步骤
🧪 场景设定:某变电站 5 台变压器的状态评估
📊 评估背景
- 指标数量:m=4
- 样本数量:n=5台变压器(T1–T5)
指标 | 含义 | 类型说明 |
---|---|---|
x1 | 乙炔含量(ppm) | 负向(越小越好,>5 ppm 可能故障) |
x2 | 顶层油温(℃) | 负向(越小越好) |
x3 | 介质损耗因数(%) | 负向(越小越好) |
x4 | 负载率(%) | 负向(过高有风险,视为越小越好) |
📌 统一处理策略:将所有指标视为“风险值”——值越大,设备状态越差。
✅ 步骤 1:原始数据矩阵 X
变压器 | 乙炔 (ppm) | 油温 (℃) | 介损 (%) | 负载率 (%) |
---|---|---|---|---|
T1 | 0.1 | 62 | 0.3 | 70 |
T2 | 0.2 | 64 | 0.4 | 72 |
T3 | 3.5 | 63 | 0.35 | 71 |
T4 | 0.15 | 65 | 0.5 | 69 |
T5 | 0.1 | 61 | 0.25 | 68 |
🔍 关键观察:T3 的乙炔含量显著异常(3.5 ppm),其余指标波动较小。
✅ 步骤 2:数据标准化(Min-Max,统一为风险值)
对所有负向指标,采用:
→ 结果解释:标准化后值 ∈ [0,1],越大表示风险越高、状态越差。
逐列计算:
指标 | min | max | 分母 |
---|---|---|---|
乙炔 | 0.1 | 3.5 | 3.4 |
油温 | 61 | 65 | 4 |
介损 | 0.25 | 0.5 | 0.25 |
负载率 | 68 | 72 | 4 |
标准化结果 X′:
变压器 | 乙炔 | 油温 | 介损 | 负载率 |
---|---|---|---|---|
T1 | 0.000 | 0.25 | 0.20 | 0.50 |
T2 | 0.029 | 0.75 | 0.60 | 1.00 |
T3 | 1.000 | 0.50 | 0.40 | 0.75 |
T4 | 0.015 | 1.00 | 1.00 | 0.25 |
T5 | 0.000 | 0.00 | 0.00 | 0.00 |
✅ T3 在乙炔上风险值为 1.0,显著高于其他样本(≈0),差异极大。
✅ 步骤 3:构建概率矩阵
对每列 j,计算比重:
① 乙炔列:总和 = 0 + 0.029 + 1.0 + 0.015 + 0 = 1.044
- T3 占比 = 1.0 / 1.044 ≈ 0.958
- 其余均 < 0.03 → 极度不均匀
② 油温列:总和 = 2.5 → 最大占比 T4=0.40
③ 介损列:总和 = 2.2 → T4=0.45
④ 负载率列:总和 = 2.5 → T2=0.40
🔍 乙炔的比重分布最集中,区分能力最强。
✅ 步骤 4:计算信息熵 ej
公式:
(约定:0 ln 0=0)
① 乙炔:
-
非零概率:0.0278, 0.9577, 0.0141
-
熵计算:
H=−(0.0278ln0.0278+0.9577ln0.9577+0.0141ln0.0141)≈0.2019
e1=0.2019/1.60944≈0.1255
② 油温:
- 概率:[0.1, 0.3, 0.2, 0.4, 0]
- H=−(0.1ln0.1+0.3ln0.3+0.2ln0.2+0.4ln0.4)≈1.2799
- e2=1.2799/1.60944≈0.7952e2=1.2799/1.60944≈0.7952
③ 介损:
- 概率:[0.0909, 0.2727, 0.1818, 0.4545, 0]
- H≈1.2400H≈1.2400
- e3=1.2400/1.60944≈0.7709
④ 负载率:
- 概率:[0.2, 0.4, 0.3, 0.1, 0](对称分布)
- H=1.2799H=1.2799(同油温)
- e4=0.7952
✅ 修正后的信息熵表:
指标 | 熵 ej | 说明 |
---|---|---|
乙炔 | 0.1255 | 很低(分布高度集中) |
油温 | 0.7952 | 中等(T4 占 40%) |
介损 | 0.7709 | 略低于油温(T4 占 45%) |
负载率 | 0.7952 | 中等(T2 占 40%) |
🔍 乙炔熵显著低于其他指标,说明其信息量最大,但其他指标也有显著区分度(尤其介损)。
✅ 步骤 5:计算动态权重 wj
差异系数 dj=1−ej:
- 乙炔:d1=1−0.1255=0.8745
- 油温:d2=1−0.7952=0.2048
- 介损:d3=1−0.7709=0.2291
- 负载率:d4=1−0.7952=0.2048
总和:
∑dj=0.8745+0.2048+0.2291+0.2048=1.5132
权重:
- 乙炔:0.8745/1.5132≈0.5779 → 57.8%
- 油温:0.2048/1.5132≈0.1353 → 13.5%
- 介损:0.2291/1.5132≈0.1514 → 15.1%
- 负载率:0.2048/1.5132≈0.1353 → 13.5%
权重:
指标 | 权重 wj | 解读 |
---|---|---|
乙炔 | 0.5779(57.8%) | 主导指标,但非绝对主导 |
介损 | 0.1514(15.1%) | T4 介损最高(1.0),贡献显著 |
油温 | 0.1353(13.5%) | T4 油温最高,有一定风险 |
负载率 | 0.1353(13.5%) | T2 负载率最高,差异明显 |
✅ 步骤 6:后处理与合理性检查
- 无全零列 → 无需强制置零
- 权重和 = 1 → 合理
- 若某指标所有值相同(如乙炔全为 0.1),则标准化后全为 0 → 比重无法计算 → 强制权重为 0
🎯 最终结论与工程意义
指标 | 动态权重 | 实际含义 |
---|---|---|
乙炔 | 0.5779(57.8%) | 本月最关键指标——因 T3 出现明显异常,系统自动赋予极高权重,突出其预警价值 |
介损 | 0.1514(15.1%) | 有一定区分度(T4 偏高) |
负载率 | 0.1353(13.5%) | 差异中等 |
油温 | 0.1353(13.5%) | 各变压器温差小,区分能力弱 |
🔁 动态性体现:
- 若下月所有变压器乙炔均正常(如 ≤0.2),则乙炔权重将自动下降;
- 若夏季油温普遍升高且差异拉大(如 60℃ ~ 85℃),油温权重将显著上升。
这种数据驱动的自适应权重分配,正是熵权法在智能运维中的核心优势。
💡 建议(工程实践)
- 对气体含量等稀疏且含异常值的指标,可考虑使用对数变换(如 log(1+x))后再标准化,避免 Min-Max 对极端值过度敏感。
- 若指标方向混合(有正向有负向),需先统一转换为同向(如全部转为“风险值”或“健康得分”)。
4. 熵权法的优势
优势 | 说明 |
---|---|
✅ 客观性强 | 权重完全由数据驱动,无需专家打分,避免主观偏差 |
✅ 动态自适应 | 数据变化时权重自动更新,适合时间序列或实时评估场景 |
✅ 突出关键指标 | 自动识别差异大、区分度高的指标,赋予更高权重 |
✅ 计算简便 | 仅需标准化、比重计算和对数运算,易于编程实现 |
✅ 适合大数据 | 样本越多,结果越稳定,适用于批量设备或高频监测 |
5. 熵权法的局限性
局限 | 说明 |
---|---|
❗ 忽略业务常识 | 仅看数据差异,可能低估“本应稳定但关键”的指标 |
❗ 对异常值敏感 | 极端值易扭曲标准化结果,影响权重合理性 |
❗ 无法处理同值列 | 若某指标所有样本相同,权重为0,即使该指标很重要 |
❗ 不适合小样本 | 样本量过小时,比重分布不稳定,熵值不可靠 |
💡 改进方法:结合AHP(主客观融合)、对数变换预处理、设置权重下限、使用改进标准化方法等。
转载自CSDN-专业IT技术社区
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.csdn.net/suleng55220/article/details/152124622