大量数据时的Dagum基尼系数分解工具
去年写过的Dagum基尼系数分解工具,本来已经足够使用,但是前天有一位用户,数据量有近15w行,我从未设想过会出现如此大的数据,程序足足运行了将近5个小时才跑出结果,然而用户还有很多类似的数据,不能总是如此。
于是在原先的工具基础上,做了优化,优化后的运行速度得到极大提升,同样的数据,在优化后,只用了不到30分钟就运行出结果,时间缩短到未优化前的1/10。
以下是结果对比:
未优化前
优化之后
需要的可以联系我微信,canglang12002
除了公众号的这些工具,大家有想做的模型,找不到代码,或者做起来比较繁琐,也欢迎与我们联系。
往期推荐:
Panda-DEA_1.0正式发布!
含有非期望产出的ZSG-DEA模型
两阶段网络DEA模型及其计算
Panda-DEA,一款新的DEA模型软件
DKM_1.3更新---CCM收敛交叉映射
DKM_1.2:两阶段嵌套泰尔指数工具
DKM_1.1--新增熵值法功能
数量经济学工具DKM_1.0
空间马尔科夫链工具
空间静态kernel核密度、空间动态kernel核密度工具更新
马尔科夫链之传统马尔可夫 ...
按收入来源分解基尼系数的工具
今天推出一个小工具,按收入来源分解基尼系数。
由于学界对基尼系数的计算没有统一,有很多方法可以计算基尼系数,但是大多比较复杂,在此基础上,1999年诺丁汉大学的姚树洁提出了一种新的计算方法,公式如下:
其中,n表示全省一共n个县城,Pk表示第k个县城的人口在全省人口总数中的份额,Wk为第k个县城收入在全省县级收入总额中的比重,Qk是第一个县累积到第k个县的收入比重之和。在按上述公式计算基尼系数的时候,应该按照各个县城财力大小由小到大排序。
姚树洁提出了按照收入来源分解基尼系数的方法,简单明了,计算方便,最大的优势在于对不均等分组同样适用。公式如下:
假设全省一共n个县,mk,pk分别为第k个县的人均收入和人口比重,把所有县城按照mk的升序排列。如果k个县城的总收入来源于f种收入,则基尼系数可以按照这些来源分解为F个部分。Wf为第f种收入在所有收入额中的占比,gf为第f种来源的人均值,g为全部收入的人均值,Cf表示f收入来源的集中率。Qfk是第f种收入从第1个县城累积到k个县城的合计数在全部收入中的占比,Wfk是第k个县的第f种收入在全部县f来源总和中的份额,mfk是第k ...
Panda-DEA_1.0正式发布!
经过一段时间的努力工作,Panda-DEA_1.0版本终于正式发布了!
软件的模型选项界面如下:
距离函数
导向
规模报酬
模型
面板模型
此外,一些比较前沿的DEA模型论文的复现和常见的基础模型,Panda-DEA提供了快捷选择模型模块,只需准备好相应的数据,可以一键复现论文的结果,参考理论,复现结果,最大减轻大家写论文的苦恼。
在模型方面,目前包括径向和至前沿最远距离(SBM)两种距离函数,投入,产出、非导向三种导向,凸性前沿和自由处置壳(FDH)两种前沿,规模报酬包括CRS,VRS,NDRS,NIRS,GRS五种类型,模型选项包括超效率和非期望产出两项,如果线性规划出现无可行解,提供赋值为1、赋值为空,和运行FPA(适用径向距离)三阶段法求解三种处理方式。至于Malquist指数,提供相邻参比,全局参比、固定参比、序列参比四种比较常用的参比方式。
至于DEA结果,Panda-DEA提供效率值,投影值和改进比例三项结果,Malquist指数则提供指数和FGLR(19 ...
含有非期望产出的ZSG-DEA模型
今天介绍一种含有非期望产出的ZSG-DEA模型。
该模型的公式如下:
其中yn、en、un和Xk,n分别表示第n个地区的期望产出(GDP),能源投入、非期望产出(CO2),和非能源投入。N为DMU个数,
分别表示第i个地区的能源投入与CO2排放的效率水平,
分别为能源投入和CO2排放效率值的权重,这里作者设置的权重各为0.5,也可以根据研究主题自行设置。这里的
即是零和DEA效率。
根据零和博弈DEA的思想,当一个地区的用能权和碳排放权增加时,其他地区必须减少相同数量的用能权和碳排放权,以保持总量不变。
作者这里采用了比例法进行重新分配,具体的分配公式如下:
这里的e'm和u'm就是根据效率值进行分配后,m地区分配到的用能权和碳排放权份额。在ZSG中,一次调整一般并不能达到零和DEA有效,这里作者参考林坦和宁俊飞提出的迭代法进行迭代求解,直到各个地区的ZSG效率值均达到1为止。
由于文献作者并未贴出原始数据,这里仅写出了代码,经过测试,可以达到作者所描述的效果。
参考文献:基于历史法和零和DEA方法的用能权与碳排放权初始分配研究,刘海英,王钰
...
两阶段网络DEA模型及其计算
今天推出的是两阶段网络DEA模型。
在两阶段网络DEA模型中,第一阶段的产出,作为第二阶段的投入。不同于之前的研究将整体的生产过程和两个子过程视作独立的,Kao这篇文献在测量效率时,考虑了两个子过程之间的串联关系,并且整体效率是两个子过程效率的乘积,因此这种关系两阶段DEA方法计算得到的效率相对于从独立两阶段DEA方法计算的效率更有意义。
两阶段网络DEA的规划式:
则整体效率值Ek和第一阶段效率值Ek1、第二阶段效率值Ek2分别如下
但是在乘数模型中,获得的最优解可能并不唯一,这使得不同DMU之间的效率比较可能会出现问题。作者提出的一个解决办法是,找到能够产生最大的Ek1的解,模型如下:
然后根据Ek=Ek1*Ek2这一关系,计算Ek2的值。
这里用python对这篇文献的模型进行了复现,结果如下:
复现结果
文献结果
可以看到,结果大体保持一致。
参考文献:《Efficiency decomposition in two-stage data
envelopment analysis: An application to n ...
Panda-DEA,一款新的DEA模型软件
数据包络分析 (DEA)
是一种数据驱动的非参数效率测度方法,并由美国著名运筹学家
A.Charnes、W.W.Cooper、E.Rhodes (1978)
首先提出。由于其不预设定具体函数形式和允许多种投入产出的优点,现已被学者们广泛用于评估决策单元的投入产出效率。经过数十年的发展,DEA模型及理论的发展十分迅速,国内外期刊,不断有人提出崭新的DEA模型,如零和收益(ZSG)DEA、网络DEA模型、含有非期望产出的SBM模型等等。大家在运用DEA模型的时候,碰到的一大难题就是如何求出DEA模型的结果,那一行行的约束公式,往往令人望而生畏。虽然市场上已经出现了为数众多的DEA模型软件,但是大多只能计算一些常见的DEA模型,对于一些前沿模型,则无能为力。有鉴于此,我们开发了一款新的DEA效率计算软件:Panda-DEA,除了会包含基础的DEA模型外,具有如下特点:
1、操作简单,无需对数据做过多处理;
2、结果以论文为导向,如零和收益ZSG-DEA模型,会直接进行多次迭代,并将迭代结果写入文件,用户可以直接放进论文;
3、以近两年国内外的前沿DEA理论为基础,不断增加新 ...
深交所信息考评数据2005-2021
深交所年度信息考评分为A、B、C、D四个等级,考评范围重点关注信息披露质量,包括信披的真实性、准确性、完整性、及时性、公平性、合法合规性和有效性,以及自愿披露的规范情况、社会责任履行披露情况和信披事务管理情况。同时也关注上市公司投资者关系管理、监管处罚以及与交易所工作配合情况等。
这里公布的数据年份为2005年至2021年,数据截图如下:
获取数据,直接加我微信canglang12002即可。
使用dea-toolbox进行数据包络分析
Data Envelopment Analysis Toolbox 是
MATLAB的一个开源包,该包涵盖了计算一些主要的DEA模型的函数。该软件包包括标准加性和径向输入和输出度量的代码,允许规模收益恒定和可变,以及与方向距离函数相关的最新发展,并在测量效率和生产力时包括期望和非期望的输出;即Malmquist和Malmquist-Luenberger指数。还包括执行统计分析的bootstrap。
这里通过一些常见的例子,说明如何使用该包。
1、下载与安装
网址:https://github.com/javierbarbero/DEAMATLAB
下载工具包以后,解压到某个目录,然后把该工具包添加到matlab的工作目录,就可以愉快地使用了。
2、代码如下:
123456789101112load 'deadataFLS' %加载工具包预设的数据文件%1、面向投入的CCR模型io = dea(X, Y, 'orient', 'oo'); %orient表示导向,io表示投入导向,oo为产出导向%X和Y分别为投入和 ...
数据包络分析(DEA)详解
一、基本介绍
1.1原理
数据包络分析有多种模型,主要为:CCR模型,BBC模型、交叉模型、A&P模型。纵观该方法的各种模型,每一模型的具体数学推理过程基本一致,所得的标准线性规划求解公式也比较相似,它们之间的差异主要体现在每个模型所适用的条件有所不同。在国外,此方法较早地运用于银行医院、城市等方面效率的评价。近些年来,该方法在我国社会经济的许多领域也取得了不少应用成果。由于方法对评价对象的要求相对比较宽松,应用其评价相同类型DMU的相对有效性的优势地位,是其他方法难以取代的。
1.2CCR模型
CCR模型是指对DMU通过“投入一定数量的生产要素,并产出一定数量的产品”的经济系统来判断各个单元的相对合理性和有效性。从投入资源的角度来看,在当前产出的水准下,比较投入资源的使用情况,以此作为效益评价的依据,这种模式称为“投入导向模式”。
定义决策单元j的效率评价指数为:
对上式可以适当的取权系数v和u,使得,对第个决策单元进行效率评价,一般来说越大表明能够用相对较少的输入而取得相对较多的输出。故只需求得的最大值,即可探究在这n个DUM中相对来说是不是最优的。
1.3B ...
含有非期望产出的SBM模型python代码
传统的径向DEA模型无法考虑“松弛变量”对效率值的影响,也没有考虑同时使期望产出增加,非期望产出减少的技术变化,以此度量的效率值是不准确或有偏的,为了解决这一问题,Tone(2001)提出了基于投入产出松弛变量的环境效率评价模型,简称SBM模型,在此基础上,他进一步提出了SBM的拓展模型,从而实现了非期望产出条件下对环境效率的评价,含有非期望产出的SBM模型规划式如下图所示:
含有非期望产出的SBM模型规划式
关于求解含有非期望产出的SBM模型的python代码如下:
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687from scipy.optimize import minimizeimport numpy as npimport pandas as pdimport scipy. ...