R平方过小的原因
R平方大于0.8才能做回归吗?教材上讲, 进行多元线性回归分析时,R Square判定系数达到0.8左右,说明方程线性度较好,方可进行多元线性回归分析。为什么包括在一些权威期刊上发表的论文中,判定系数
R平方大于0.8才能做回归吗? 教材上讲,进行多元线性回归分析时,RSquare判定系数达到0.8左右,说明 方程线性度较好,方可进行多元线性回归分析。为什么包括在一些权威期刊上发 表的论文中,判定系数很低甚至不到0.3也使用多元线性分析呢了?是不是在不 同研究中对判断系数的要求是不同的?如果不使用方程进行预测,只是比较自变 量间影响力大小,可以不用过多考虑判定系数? 庄主@2007-11-10 不知是哪本教材如此说?从没看到过如此说法。从原理上讲,好像没有什么根据。 我们来说说原理(我曾发过一个有关的贴子今 回归模型的决定系数至少要多大? 2 天再进一步展开谈谈)。回归分析的R反映的是该模型中所有自变量对因变量 2 的联合解释能力(explanatorypower),因为R取值从0到1,可以转换成百分 比,非常直观,所以很多非OLS回归(logistic或loglinear)的分析结果,也会被 22 转换成“近似R”(PseudoR)。从社会学到政治学、从心理学到传播学的各种研 究人类行为的意即因变量中 社会科学研究,其解释能力大部分确实不超过0.3, 还有70%的差异(unexplainedvariance或residual,残差)不能被模型中的自变 量所解释。 这是一个问题吗?不一定。残差有三种来源:没被收入模型的其它自变量;系统 误差(即有规律或偏向的);随机误差(即无规律或无偏向的)。这三者因各自 我们分开来谈谈。 大小及其性质不同而对已有模型的结果造成不同的影响。 一、其它自变量的影响:取决于它(们)与已有自变量之间的关系。如果无关, 那么“其它变量”是否存在、对因变量的影响大小均与本案无关。反之则直接挑 战本回归的发现,因为该模型中自变量的影响也许是被夸大、或压抑(不太常 见)、或曲解(如其它自变量是条件变量的话),也就是说该模型犯的错误即可 能是TypeI类的(夸大)、也可能是TypeII类的(缩小或扭曲)。这里的难点 是如果没有将其它自变量吸收进来加以检验,如何事先知道它们与本案是否有 关。一般主要依靠前人研究成果,如果某些变量已被证明与本案自变量有关, 那就必须作为控制变量引入、哪怕它们与研究假设毫无关系。否则,则不变求全。 大千世界,任何研究都无法穷尽自变量的。 二、系统误差的影响:这种误差主要来自被测量者(如全部讲某种假话,如过 高报告读报时间、过低报告看电视时间、过高或过低报告家庭收入等,注意这里 的“全部”,如果部分人过高部分人过低,则成为随机误差)或测量工具(如 问卷的误导)造成的。其实这本身也是一种特定含义的其它自变量。它们的存在 及其程度大小,是否与本案有关,也取决与是否与已有自变量之间关系是否密 切。同样,事先很难知道这种关系程度。研究者主要依靠采用多种测量方法(问 卷中的不同问法、自我报告加行为记录等等)来互相印证。SEM中的 Multi-TraitsMulti-Methods(MTMM)分析,就是用来处理多种测量数据的。

