Shapley方法测算DEA模型变量重要性
今天推出的是利用Shapley方法,测算DEA中投入产出变量重要性的方法。
Shapley 值法是由 L. S. Shapley 于 1953 年提出的方法。Shapley 值的特点为参与人之间的平等性。可以通过构造联盟、联盟内外平等和联盟中参与人平等性这三个角度体现。基于 Shapley 值进行联盟成员的利益分配体现了各盟员对联盟总目标的贡献程度,避免了分配上的平均主义。通过每个变量的 Shapley 值,可以求出变量在效率中的边际影响,从而合理筛选投入产出指标,构建科学的投入产出指标体系,为后续测算煤炭生态效率奠定基础。
参考文献:《A Shapley value index on the importance of variables in DEA models》Yongjun Li, Liang Liang
DEA模型中的效率贡献率(ECR)
1. 引言
Wagner和Shimshak(2007)开发了一种逐步减少变量的程序方法。该方法的核心是计算每个变量对效率评估的影响程度;在他们的论文中,给定变量的影响被定义为包含和不包含该变量的两个DEA模型中所有DMU平均效率的差异。
2. ECR定义
变量\(X_i\)对DMU\(_d\)的ECR定义为:
\[ \text{ECR}_d^S(X_i) = \frac{E_d(M, S)}{E_d(M/\{i\}, S)} - 1, \quad d \in N; \forall\{i\} \subset M, \{i\} \neq M, \]
其中\(E_d(M/\{i\}, S)\)是基于模型(1)的DMU\(_d\)的最优效率得分,输入集为\(M/\{i\}\),输出为\(S\)。显然,随着\(\text{ECR}_d^S(i)\)的数值越大,其对效率的影响就越重要。
3. ECR变量集的性质
定义2
变量集的ECR为:
\[ \text{ECR}_d^S(P) = \frac{E_d(M, S)}{E_d(M/P, S)} - 1, \quad d \in N; \quad \forall P \subset M, M \neq P. \]
备注1
\(\text{ECR}_d^S(\emptyset) = 0, \quad \forall d \in N\).
定理1
\(\text{ECR}_d^S(P) \geq 0, \quad \forall d \in N, P \subset M\).
定理2
\(\frac{E_d(M,S)}{E_d(M/P,S)} = \text{ECR}_d^S(P) + 1 = 1/p_d^*\),其中\(p_d^*\)是以下模型的最优目标函数值:
\[ \begin{aligned} p_d^* &= \text{Min} \quad p \\ \text{s.t.} \quad &\sum_{j\in N} \lambda_j E_i(M, S)x_{ij} \leq p[E_d(M, S)x_{di}], \quad i \in M/P, \\ &\sum_{j\in N} \lambda_j y_{rj} \geq y_{rd}, \quad r \in S, \\ &\lambda_j \geq 0, \quad p : \text{free}. \end{aligned} \]
定理3
\(M\)的任意两个输入子集没有公共点,即\(\forall P_1 \cup P_2 \subset M, P_1 \cap P_2 = \emptyset\),则:
\[ \text{ECR}_d^S(P_1 + P_2) \geq \text{ECR}_d^S(P_1) + \text{ECR}_d^S(P_2), \quad \forall d \in N. \]
4. 确定每个变量重要性的合作博弈
在本节中,我们将ECR与合作博弈相结合,计算每个变量的重要程度。
定义3
对于输入集\(M\)中的给定联盟\(P\),P在所有DMU中的ECR之和定义为:
\[ V^S(P) = \sum_{d=1}^n \text{ECR}_d^S(P). \]
备注2
\(V^S(\emptyset) = 0\).
\(V^S(P)\),与\(V^S(\emptyset) = 0\)一起,定义了联盟\(P\)的特征函数。因此,我们得到了一个联盟形式的博弈,表示为\((M, V)\)。
定理4
特征函数\(V\)是超可加的,即对于任意\(P_1 \subset M\)和\(P_2 \subset M\)且\(P_1 \cap P_2 = \emptyset\),我们有:
\[ V^S(P_1 + P_2) \geq V^S(P_1) + V^S(P_2). \]
由于特征函数\(V\)是超可加的,Shapley值可以用作合作博弈\((M, V)\)的解。因此,输入\(X_i\)的重要性可以定义为:
\[ \phi_i^S(V) = \sum_{i\subset P \\ P\subset M ,\ P\neq M} \frac{(p - 1)!(m - p)!}{m!}[V^S(P) - V^S(P/\{i\})], \]
其中\(p\)是联盟\(P\)的成员数,而\(m\)是\(M\)的成员数。这个值\(\phi_i^S(V)\)是变量\(X_i\)在所有大联盟形成顺序等概率的情况下的边际贡献的数学期望。
5. 数值示例
在本节中,我们将提出的方法应用于一个发表在一般DEA文献中的数据集。我们使用的数据集来自Ragsdale(2001, p. 132)的最新教科书。如表4所示,有六个输入,两个输出和仅八个DMU。
DMU | X1 | X2 | X3 | X4 | X5 | X6 | Y1 | Y2 |
---|---|---|---|---|---|---|---|---|
A | 1.5 | 2.7 | 70 | 2.3 | 1.8 | 3.3 | 85 | 82 |
B | 0.5 | 0.2 | 70 | 1.5 | 1.1 | 0.5 | 96 | 93 |
C | 2.5 | 2.6 | 75 | 2.2 | 2.4 | 3.2 | 78 | 87 |
D | 1.8 | 1.5 | 75 | 1.8 | 1.6 | 2.3 | 87 | 88 |
E | 0.9 | 0.4 | 80 | 0.5 | 1.4 | 2.6 | 89 | 94 |
F | 0.6 | 0.2 | 80 | 1.3 | 0.9 | 2.8 | 93 | 93 |
G | 1.4 | 0.6 | 85 | 1.4 | 1.3 | 2.1 | 92 | 91 |
H | 1.7 | 1.7 | 90 | 0.3 | 1.7 | 1.8 | 97 | 92 |
Shapley | 2.4299 | 0.96571 | 6.4408 | 3.2423 | 4.1729 | 1.6889 | 0.004759 | 0.09774 |
这篇文章提出了一种从合作博弈的角度确定性能测量中每个变量重要性的方法。这种方法可以直接给出输入和输出变量的排序。排序信息可以帮助决策者找到对效率评估至关重要的变量。
针对这个方法,我们开发了相关工具,可以复现该篇文献中关于shapley的结果,具体如下图:

可以看到,与论文给出的结果,完全一致。
需要的话,联系微信:canglang12002
往期推文:
空间马尔科夫工具更新** **
基于参数化的方向性距离函数(DDF)估算污染物影子价格的工具
QLab增加耦合协调度模型** **
广义SBM模型的matlab代码** **
QLab1.4正式发布!增加全排列多边形图示指标法** **
大量数据时的Dagum基尼系数分解工具** **