对SSIV(Bartik-IV)的一些思考,个人愚见
Bartik IV 如何避免内生性问题
Bartik IV 能够避免内生性的问题,其核心在于它的工具变量的构造方式。通过结合地方行业分布的异质性和全国性行业冲击的外生性,Bartik IV 的工具变量具有与被解释变量(通常是地方经济结果变量)相关,但与误差项无关的特性,这正是一个合格工具变量所需要满足的条件。接下来我结合公式详细解释其避免内生性的原理。
Bartik IV 的构造公式
Bartik IV 通常可以表示为以下形式:
\[Z = \sum_{s} L_{i,s} \cdot G_s\]其中:
- $Z$ 是 Bartik IV 的工具变量。
- $L_{i,s}$ 是地方 $i$ 在基期(如 $t_0$)时的行业 $s$ 的份额,即某地 $i$ 中行业 $s$ 的劳动者或产出占比。它表示地方 $i$ 的行业结构。
- $G_s$ 是全国性层面上行业 $s$ 的增长率或其他冲击变量,它代表全国性的外生冲击。
因此,Bartik 工具变量 $Z$ 是基于全国层面外生行业变化的加权平均,而加权因子是地方 $i$ 在各行业中的份额 $L_{i,s}$。
内生性问题及如何避免
- 内生性问题的来源
通常,在计量模型中,如果自变量(解释变量)与误差项 $\varepsilon$ 相关,则会导致内生性问题。举例来说,假设你正在估计地方经济增长 $Y_i$ 受到某种政策变量 $X_i$ 的影响:
\[Y_i = \alpha + \beta X_i + \varepsilon_i\]若 $X_i$ 与 $\varepsilon_i$ 有关联(例如,地方经济政策 $X_i$ 是由于地方经济表现 $Y_i$ 好坏所决定的),这就会造成内生性问题,导致OLS估计的 $\beta$ 有偏且不一致。
- Bartik IV 如何避免内生性
Bartik IV 工具变量 $Z$ 是基于全国性行业冲击 $G_s$ 构造的,而这些全国性行业冲击 $G_s$ 被假设为外生的,独立于地方的经济活动。因此,它不应该与地方层面的误差项 $\varepsilon_i$ 相关。具体来说:
-
全国性行业冲击 $G_s$ 的外生性:全国性行业冲击 $G_s$ 是全局性质的宏观变量,它被视为外生的,因为这些冲击与个别地方 $i$ 的经济条件和误差项 $\varepsilon_i$ 无关。例如,全球或全国范围内的技术进步或行业需求变化可能会影响某个行业的增长,但这种变化与地方经济状况没有直接关系。只要全国性冲击 $G_s$ 真的与地方的误差项 $\varepsilon_i$ 无关,Bartik IV 就满足工具变量的外生性条件。
-
地方行业分布 $L_{i,s}$ 的时点固定性: $L_{i,s}$ 通常是基于某个基期的固定变量,反映了地方 $i$ 在一个特定时期的行业结构。这意味着 $L_{i,s}$ 在全国性行业冲击发生之前已经确定,不会因全国性的行业变化而内生地调整。这就确保了 $L_{i,s}$ 与 $\varepsilon_i$ 也是独立的,因为它在全国性冲击之前已经固定,不受地方未来经济状况的影响。
通过将外生的全国性行业冲击与基期固定的地方行业结构结合,Bartik IV 工具变量 $Z$ 被设计成与地方经济的误差项 $\varepsilon_i$ 无关,从而满足工具变量的核心条件:
- 工具变量与误差项无关: $Cov(Z, \varepsilon_i) = 0$
数学表达避免内生性的逻辑
回到模型:
\[Y_i = \alpha + \beta X_i + \varepsilon_i\]为了使用工具变量估计 $\beta$,我们使用工具变量 $Z$ 替代自变量 $X_i$ 进行两阶段最小二乘法(2SLS)。为了 $Z$ 成为有效的工具变量,它必须满足两个条件:
-
相关性条件: $Cov(Z, X_i) \neq 0$,即工具变量 $Z$ 与自变量 $X_i$ 相关。Bartik IV 工具变量通过地方行业分布 $L_{i,s}$ 和全国性行业冲击 $G_s$ 构造,与地方经济的政策变量 $X_i$ 相关。
-
外生性条件: $Cov(Z, \varepsilon_i) = 0$,即工具变量 $Z$ 与误差项 $\varepsilon_i$ 不相关。全国性冲击 $G_s$ 是外生的,与地方经济活动无关,因此与误差项不相关。同时,地方行业分布 $L_{i,s}$ 在基期已经固定,因此也与误差项不相关。
由于满足了这两个条件,Bartik IV 工具变量可以有效地避免内生性问题,并且得到一致的估计值。
Bartik IV 通过利用全国性行业冲击的外生性和地方行业分布的异质性,构造出一个与误差项无关的工具变量,从而避免了内生性问题。这种工具变量的构造方式使得它能够在估计因果效应时避免自变量与误差项的相关性,从而确保估计的有效性。