今天推出的是利用Shapley方法,测算DEA中投入产出变量重要性的方法。

Shapley 值法是由 L. S. Shapley 于 1953 年提出的方法。Shapley 值的特点为参与人之间的平等性。可以通过构造联盟、联盟内外平等和联盟中参与人平等性这三个角度体现。基于 Shapley 值进行联盟成员的利益分配体现了各盟员对联盟总目标的贡献程度,避免了分配上的平均主义。通过每个变量的 Shapley 值,可以求出变量在效率中的边际影响,从而合理筛选投入产出指标,构建科学的投入产出指标体系,为后续测算煤炭生态效率奠定基础。

参考文献:《A Shapley value index on the importance of variables in DEA models》Yongjun Li, Liang Liang

DEA模型中的效率贡献率(ECR)

1. 引言

Wagner和Shimshak(2007)开发了一种逐步减少变量的程序方法。该方法的核心是计算每个变量对效率评估的影响程度;在他们的论文中,给定变量的影响被定义为包含和不包含该变量的两个DEA模型中所有DMU平均效率的差异。

2. ECR定义

变量\(X_i\)对DMU\(_d\)的ECR定义为:

\[ \text{ECR}_d^S(X_i) = \frac{E_d(M, S)}{E_d(M/\{i\}, S)} - 1, \quad d \in N; \forall\{i\} \subset M, \{i\} \neq M, \]

其中\(E_d(M/\{i\}, S)\)是基于模型(1)的DMU\(_d\)的最优效率得分,输入集为\(M/\{i\}\),输出为\(S\)。显然,随着\(\text{ECR}_d^S(i)\)的数值越大,其对效率的影响就越重要。

3. ECR变量集的性质

定义2

变量集的ECR为:

\[ \text{ECR}_d^S(P) = \frac{E_d(M, S)}{E_d(M/P, S)} - 1, \quad d \in N; \quad \forall P \subset M, M \neq P. \]

备注1

\(\text{ECR}_d^S(\emptyset) = 0, \quad \forall d \in N\).

定理1

\(\text{ECR}_d^S(P) \geq 0, \quad \forall d \in N, P \subset M\).

定理2

\(\frac{E_d(M,S)}{E_d(M/P,S)} = \text{ECR}_d^S(P) + 1 = 1/p_d^*\),其中\(p_d^*\)是以下模型的最优目标函数值:

\[ \begin{aligned} p_d^* &= \text{Min} \quad p \\ \text{s.t.} \quad &\sum_{j\in N} \lambda_j E_i(M, S)x_{ij} \leq p[E_d(M, S)x_{di}], \quad i \in M/P, \\ &\sum_{j\in N} \lambda_j y_{rj} \geq y_{rd}, \quad r \in S, \\ &\lambda_j \geq 0, \quad p : \text{free}. \end{aligned} \]

定理3

\(M\)的任意两个输入子集没有公共点,即\(\forall P_1 \cup P_2 \subset M, P_1 \cap P_2 = \emptyset\),则:

\[ \text{ECR}_d^S(P_1 + P_2) \geq \text{ECR}_d^S(P_1) + \text{ECR}_d^S(P_2), \quad \forall d \in N. \]

4. 确定每个变量重要性的合作博弈

在本节中,我们将ECR与合作博弈相结合,计算每个变量的重要程度。

定义3

对于输入集\(M\)中的给定联盟\(P\),P在所有DMU中的ECR之和定义为:

\[ V^S(P) = \sum_{d=1}^n \text{ECR}_d^S(P). \]

备注2

\(V^S(\emptyset) = 0\).

\(V^S(P)\),与\(V^S(\emptyset) = 0\)一起,定义了联盟\(P\)的特征函数。因此,我们得到了一个联盟形式的博弈,表示为\((M, V)\)

定理4

特征函数\(V\)是超可加的,即对于任意\(P_1 \subset M\)\(P_2 \subset M\)\(P_1 \cap P_2 = \emptyset\),我们有:

\[ V^S(P_1 + P_2) \geq V^S(P_1) + V^S(P_2). \]

由于特征函数\(V\)是超可加的,Shapley值可以用作合作博弈\((M, V)\)的解。因此,输入\(X_i\)的重要性可以定义为:

\[ \phi_i^S(V) = \sum_{i\subset P \\ P\subset M ,\ P\neq M} \frac{(p - 1)!(m - p)!}{m!}[V^S(P) - V^S(P/\{i\})], \]

其中\(p\)是联盟\(P\)的成员数,而\(m\)\(M\)的成员数。这个值\(\phi_i^S(V)\)是变量\(X_i\)在所有大联盟形成顺序等概率的情况下的边际贡献的数学期望。

5. 数值示例

在本节中,我们将提出的方法应用于一个发表在一般DEA文献中的数据集。我们使用的数据集来自Ragsdale(2001, p. 132)的最新教科书。如表4所示,有六个输入,两个输出和仅八个DMU。

DMU X1 X2 X3 X4 X5 X6 Y1 Y2
A 1.5 2.7 70 2.3 1.8 3.3 85 82
B 0.5 0.2 70 1.5 1.1 0.5 96 93
C 2.5 2.6 75 2.2 2.4 3.2 78 87
D 1.8 1.5 75 1.8 1.6 2.3 87 88
E 0.9 0.4 80 0.5 1.4 2.6 89 94
F 0.6 0.2 80 1.3 0.9 2.8 93 93
G 1.4 0.6 85 1.4 1.3 2.1 92 91
H 1.7 1.7 90 0.3 1.7 1.8 97 92
Shapley 2.4299 0.96571 6.4408 3.2423 4.1729 1.6889 0.004759 0.09774

这篇文章提出了一种从合作博弈的角度确定性能测量中每个变量重要性的方法。这种方法可以直接给出输入和输出变量的排序。排序信息可以帮助决策者找到对效率评估至关重要的变量。

针对这个方法,我们开发了相关工具,可以复现该篇文献中关于shapley的结果,具体如下图:

https://github.com/gongju128/picx-images-hosting/raw/master/image.4n7pf6x1yx.webp

可以看到,与论文给出的结果,完全一致。

需要的话,联系微信:canglang12002

往期推文:

Panda_DEA更新

三阶段DEA之SFA回归

产业空间聚集DO指数计算工具更新

存在共享投入的两阶段博弈交叉DEA模型

产业空间聚集DO指数计算工具

网络SBM模型(NSBM)复现

团体机构持股比例代码更新

空间马尔科夫工具更新** **

共享投入型关联两阶段生产系统的网络DEA效率测度与分解复现

基尼系数双维度分解计算工具

动态SBM模型(DSBM)复现

共享投入的两阶段DEA模型复现

基于凸分位数回归的影子价格计算工具

Doyle和Green(1994)的对抗性和仁慈性DEA

一种新的两阶段网络DEA模型

适用于面板数据的动态StoNED模型计算工具** **

零和博弈SBM模型(ZSG-SBM)模型

三阶段动态网络DEA(DNSBM)模型的实现

计算相对资源承载力模型的工具

基于参数化的方向性距离函数(DDF)估算污染物影子价格的工具

基于非期望产出的RAM 碳环境效率模型

使用遗传算法或NSGA2算法解决多式联运问题

莫兰指数计算小工具

Panda_DEA增加至强有效前沿最近距离-MinDS模型

QLab增加耦合协调度模型** **

广义SBM模型的matlab代码** **

QLab1.4正式发布!增加全排列多边形图示指标法** **

大量数据时的Dagum基尼系数分解工具** **

Panda-DEA_1.0正式发布!

含有非期望产出的ZSG-DEA模型

两阶段网络DEA模型及其计算

Panda-DEA,一款新的DEA模型软件

DKM_1.3更新---CCM收敛交叉映射

DKM_1.2:两阶段嵌套泰尔指数工具

DKM_1.1--新增熵值法功能

数量经济学工具DKM_1.0

空间马尔科夫链工具

空间静态kernel核密度、空间动态kernel核密度工具更新

马尔科夫链之传统马尔可夫链

Dagum基尼系数分解工具更新

无条件、空间静态、空间动态kernel核密度工具

基于共同前沿下含非期望产出SBM模型的影子价格测算

基于非期望产出SBM模型的群组前沿和共同前沿的DEA效率

零和收益ZSG-DEA模型的求解程序

三阶嵌套泰尔指数计算工具

dagum基尼系数分解工具

《机构投资者抱团与股价崩盘风险》数据处理代码