DO指数模型概述

DO指数(Duranton-Overman Index)是由Duranton和Overman于2005年提出的产业空间集聚测度方法,它通过分析企业间的精确地理距离分布来识别产业集聚模式。与传统集聚指标相比,DO指数具有两大优势:

  1. 跨行政边界分析:基于实际地理坐标而非行政边界
  2. 统计显著性检验:通过反事实模拟建立置信区间

核心计算

1. 加权核密度估计

\[ K^{\mathrm{EMP}}(d) = \frac{1}{h \sum_{i=1}^{n-1} \sum_{j=i+1}^{n} (e_i + e_j)} \sum_{i=1}^{n-1} \sum_{j=i+1}^{n} (e_i + e_j) f\left( \frac{d - d_{i,j}}{h} \right) \]

其中:

  • ei,ej:企业i和j的就业人数(规模权重)
  • di,j:企业间地理距离
  • h:带宽(按Silverman准则计算)
  • f:高斯核函数

2. 反事实模拟

通过若干次随机抽样构建置信区间

大数据计算瓶颈

当处理大规模企业数据时,DO指数面临严重的计算复杂度问题

计算复杂度分析

数据规模 点对数量 计算量级
1万企业 约5千万 O(n2)
10万企业 约50亿 O(n2)
20万企业 约200亿 O(n2)

主要瓶颈环节

  1. 距离矩阵计算

    • 需要计算所有企业对的精确地理距离
    • 20万企业产生C200,0002≈2×1010个距离对
  2. 核密度估计

    1
    2
    3
    4
    for d in distance_bins:  # 200个距离箱
    for i in range(n): # 20万企业
    for j in range(i+1, n): # 约200亿次循环
    kernel += f((d - dist[i,j])/h)
  3. 反事实模拟

    • 需重复1000次随机抽样和核密度计算
    • 总计算量:1000×O(n2)

传统计算性能

数据规模 CPU计算时间 内存消耗
1万企业 2-3小时 约40GB
5万企业 超过24小时 约1TB
20万企业 不可行 >10TB

GPU并行计算解决方案

基于Julia语言开发的新型计算工具,通过GPU并行计算突破计算瓶颈

性能突破

  1. GPU计算

    为了解决计算问题,我们使用julia开发了一个GPU计算的DO指数版本。

    相对之前的版本,有如下优点:

    ①,充分利用GPU的优势,加快计算速度。

    ②,为了加快计算,可以设置最大抽样样本数。

    ③,可以自由设置距离数,迭代数等相关参数

  2. 计算性能对比

    企业数量 CPU计算时间 A100 GPU时间 加速比
    50,000 28小时 30分钟 40×
    100,000 预估120小时 1.8小时 67×
    200,000 不可行 2.5-3小时

使用示例

只需要准备好数据,然后输入相关参数,即可得到结果。

软件会自动计算DO指数图像,如下

另外,会生成一份结果文件,提供了具体的Kd值,以及置信区间数据。供用户处理。

部署优势

跨平台支持

如数据过于庞大,程序支持部署到远程linux服务器上,租用高性能显卡进行计算。

如果需要该工具,请联系微信 canglang12002

往期推荐:

含有非期望产出EBM模型

基于Shapley值方法测算DEA模型变量重要性

非平衡面板Malquist指数计算工具

复合系统协调度工具

Panda_DEA更新

三阶段DEA之SFA回归

产业空间聚集DO指数计算工具更新

存在共享投入的两阶段博弈交叉DEA模型

产业空间聚集DO指数计算工具

网络SBM模型(NSBM)复现

团体机构持股比例代码更新

空间马尔科夫工具更新** **

共享投入型关联两阶段生产系统的网络DEA效率测度与分解复现

基尼系数双维度分解计算工具

动态SBM模型(DSBM)复现

共享投入的两阶段DEA模型复现

基于凸分位数回归的影子价格计算工具

Doyle和Green(1994)的对抗性和仁慈性DEA

一种新的两阶段网络DEA模型

适用于面板数据的动态StoNED模型计算工具** **

零和博弈SBM模型(ZSG-SBM)模型

三阶段动态网络DEA(DNSBM)模型的实现

计算相对资源承载力模型的工具

基于参数化的方向性距离函数(DDF)估算污染物影子价格的工具

基于非期望产出的RAM 碳环境效率模型

使用遗传算法或NSGA2算法解决多式联运问题

莫兰指数计算小工具

Panda_DEA增加至强有效前沿最近距离-MinDS模型

QLab增加耦合协调度模型** **

广义SBM模型的matlab代码** **

QLab1.4正式发布!增加全排列多边形图示指标法** **

大量数据时的Dagum基尼系数分解工具** **

Panda-DEA_1.0正式发布!

含有非期望产出的ZSG-DEA模型

两阶段网络DEA模型及其计算

Panda-DEA,一款新的DEA模型软件

DKM_1.3更新---CCM收敛交叉映射

DKM_1.2:两阶段嵌套泰尔指数工具

DKM_1.1--新增熵值法功能

数量经济学工具DKM_1.0

空间马尔科夫链工具

空间静态kernel核密度、空间动态kernel核密度工具更新

马尔科夫链之传统马尔可夫链

Dagum基尼系数分解工具更新

无条件、空间静态、空间动态kernel核密度工具

基于共同前沿下含非期望产出SBM模型的影子价格测算

基于非期望产出SBM模型的群组前沿和共同前沿的DEA效率

零和收益ZSG-DEA模型的求解程序

三阶嵌套泰尔指数计算工具

dagum基尼系数分解工具