【memo】对实证分析的认知，以及如何调整实证结果

2024-05-25

memo

对于很多硕博生来说，实证分析是最基础的研究方法。本篇博客将分享我对实证分析的一些想法，也会分享我平时调整实证结果的思路。

1.对实证分析的理解

个人认为，实证分析是手段，而非目标。现在很多实证分析做的天花乱坠，颇有“艺术感”，包括曾经我也想在实证方法上追求极致的“艺术感”。但现在我觉得这些方面做得再fancy，也只不过是对结果一种呈现，只不过是为论点提供证据；这和用Raw-data画图寻求证据支持论点没有本质区别。

当然，还有很多人认为，实证分析是一种“把戏”，完全可以通过调整来达到自己想要的结果。这种想法也存在一定问题。因为在不伪造数据的前提下，对现有数据进行挖掘寻求论点，那么数据蕴含的信息（分布、数量关系）就已经决定了实证分析的结果；当然，我们可以通过分组、替换估计方法等方式在一定程度上做出调整，但这些并不会影响变量本身的数量关系。（不过reg monkey就另说了，如果认为，在不讨论变量因果关联、数量关系的前提下，任意调整控制变量来让结果变好，那么ok，这样确实很tricky，我也会认为实证分析是一种“把戏”）

总之，我的意思是，实证分析应该重点关注通过数据洞察变量之间的数量关系、因果逻辑，而绝非是加减变量操作让结果显著。一篇好的经济学研究最重要的内核理应是选题和理论，识别方法是用来佐证核心观点的方法手段。

2.实证结果不显著怎么办

首先需说明的是，我们不能只盯着系数的显著性，更应重点关注系数的大小。因为系数的大小反映了X与Y的相关程度有多大，或者说X对Y的解释力度有多大。很多时候，我们可能只顾着“数星星”，而忽略了系数数值大小背后的经济学解释。

我们所关注的星星（***），直接受到系数大小和标准误大小的影响。（$pval=ceof. / se.$，p值小于10%/5%1%就显著）。那怎么让系数显著呢？

一是系数不要太小，但系数大小“可遇不可调”；
二是不要让标准误太大。

那么如何让标准误不要太大呢，我们标准误的推到过程参考：推导过程

标准误较大可能是这三方面原因导致的：（1）样本少（2）极端值多（3）X没有足够的variation

3.结论

因此为了让回归结果显著，可以：

样本量不要太少，因为较大的样本量有助于提高统计检验的功效，减少估计结果的随机误差。
查看变量分布，对极端值进行截尾（truncation）或缩尾（winsorization）处理，以减少异常值对回归结果的影响。截尾是指将超过一定阈值的极端值直接删除，而缩尾则是将极端值替换为接近阈值的数值。
保证变量具有足够的变差，规避变量变差（variation）很小或几乎不变的情况。变量的变差过小会导致模型难以识别变量之间的关系，从而影响回归结果的显著性。