如何对多元回归模型进行回归拟合,普通回归模型与逻辑回归的区别

2022-09-06 23:59:08 基金研究

　　今天我就把logistic回归和Poisson回归放在一起写，因为它们在R中的做法很相似，也很简单，也有两个回归的图示。　　

什么时候用逻辑回归

　　逻辑回归，也称为logit回归，是当你的结果变量(因变量)是二分的时候使用的　　

　　也就是说，如果你的因变量分为两类，你就要考虑用logistic回归了，多类也用，所以你要记住，只要因变量分类了，基本的logistic回归就跑不掉了。　　

　　逻辑回归不是估计beta大小，而是估计在给定预测因子/独立变量的情况下，获得两个结果之一的概率(即投票与不投票的概率)。为了我们的目的　　

　　传统回归总会得出一个值，解释为自变量变化一个单位，因变量就会变化个单位，所以做logistic回归时也会有这个值，但意义大不相同，此时的值为自变量改变一个单位时，logOR的改变量，怎么解释呢？就是说自变量改变一个单位阳性结果（通常编码为1）的发生概率比阴性结果的发生概率会增加exp倍。. 　　

什么时候用泊松回归

　　泊松回归，也称为对数线性模型，是当您的结果变量是计数(即，数字，但范围不如连续变量宽)时使用的模型。) 　　

　　当您的因变量是单位时间内某一事件的次数时，您应该考虑使用泊松回归。比如你要研究的因变量是过去一个月的心肌梗死次数，你就要考虑用泊松回归。　　

实例展示

　　今天的例子是研究GRE，GPA，学校排名是否会影响一个人考上研究生，在这个例子中GRE和GPA都是连续变量，学校排名rank为分类变量，是否录取admit为（0/1）二分类. 　　

　　读入数据(请私信获取数据): 　　

　　my data-read . CSV(' c :/Users/HRD/Desktop/boot camp/dataset/binary . CSV ')head(my data) 　　

　　那么对于这样一个数据集，就要用logistic回归模型。首先要告诉R我们学校排名rank是一个分类变量，然后拟合模型：　　

　　my data $ rank-factor(my data $ rank)my logit-glm(admit ~ GRE GPA rank，data=mydata，family='binomial ')汇总(mylogit) 　　

　　从以上结果可以看出：　　

　　结果中首先会提示你跑的什么模型然后我们会看到deviance residuals，这个和线性回归的残差一个意思，是表示模型好坏的一个指标然后就是各个预测变量的系数和标准误，z统计量和p值，我们可以看到gpa,gre和rank都有显著意义，系数的解释就是预测变量每增加一个单位，LogOR的改变量，比如对于gre就有学生的gre每增加一个单位，那么它被录取为研究生的概率增加exp0.002倍。默认输出的这个结果其实是不直观的，我们可以通过下面的代码直接输出OR改变量和置信区间 　　

　　exp(cbind(OR=coef(mylogit)，confint(mylogit))) 　　

　　这样解释起来会直观很多。　　

　　那么模型建立之后，我们也可以用它来做预测。例如，我们想看看不同的学校排名如何预测学生是否可以读研：　　

　　newdata1 - with(mydata，data.frame(gre=mean(gre)，gpa=mean(gpa)，rank=factor(1:4)) 　　

)newdata1$rankP <- predict(mylogit, newdata = newdata1, type = "response")newdata1

在上面的代码中我们将gpa和gre都固定为均值，只改变学校排名，然后我们得到的结果就是排名为1的学校的学生能上研究生的概率为0.517，排名为2，3，4的学校的学生能上研究生的概率分别为0.352，0.219，0.185。

我们还可以将不同的gre或者gpa与能否上研究生的关系以学校排名分组画出来，比如我们想画gre与能否上研究生的概率，此时我们需要有很多的gre分数：

newdata2 <- with(mydata, data.frame(gre = rep(seq(from = 200, to = 800, length.out = 100), 4), gpa = mean(gpa), rank = factor(rep(1:4, each = 100))))上面的代码就给不同排名的学校都生成了一百个200到800的gre分数，同时依然固定gpa。

此时我们的newdata2就只有3个预测变量gre，gpa，和rank，我们用之前训练的模型来给这个数据做预测，生成newdata3：

newdata3 <- cbind(newdata2, predict(mylogit, newdata = newdata2, type = "link", se = TRUE))此时这个newdata3就包含一个fit列以及fit的标准误，fit就是logOdds，如下图：

因为我们需要的是概率，所以我们需要将fit转化为预测概率，下面的代码就可以实现概率和概率的置信区间计算：

newdata3 <- within(newdata3, { PredictedProb <- plogis(fit) LL <- plogis(fit - (1.96 * se.fit)) UL <- plogis(fit + (1.96 * se.fit))})此时再看我们的newdata3，里面就有我们的预测概率和置信区间了：

我们现在就可以以rank这个变量分组，画出gre和预测概率的关系：

ggplot(newdata3, aes(x = gre, y = PredictedProb)) + geom_ribbon(aes(ymin = LL, ymax = UL, fill = rank), alpha = 0.2) + geom_line(aes(colour = rank), size = 1)

到这儿这篇文章的逻辑回归就写完了，在具体分析的时候如果我们要用泊松回归，我们只需要将拟合模型时的family 参数修改为family=poisson就行，其余都完全一样。

那么对于本文中的例子来说，如果我们不是模拟的数据集，如果我们的newdata3中还有实际的admit这个变量，我们就可以进一步的做出真阳性率和假阳性率，进而画出ROC曲线。具体的操作之前文章应该有写的，有兴趣的可以翻看。

小结

今天给大家写了一个逻辑回归的例子，并对模型的输出和结果解释做了说明，希望对大家有帮助，很多人爱做预测模型，其实本文就是一个很好的例子。感谢大家耐心看完，也欢迎大家的意见和建议。

如果你是一个大学本科生或研究生，如果你正在因为你的统计作业、数据分析、论文、报告、考试等发愁，如果你在使用SPSS,R，Python，Mplus, Excel中遇到任何问题，都可以联系我。因为我可以给您提供最好的，最详细和耐心的数据分析服务。

如果你对Z检验，t检验，方差分析，多元方差分析，回归，卡方检验，相关，多水平模型，结构方程模型，中介调节等等统计技巧有任何问题，请私信我，获取最详细和耐心的指导。

If you are a student and you are worried about you statistical #Assignments, #Data #Analysis, #Thesis, #reports, #composing, #Quizzes, Exams.. And if you are facing problem in #SPSS, #R-Programming, #Excel, Mplus, then contact me. Because I could provide you the best services for your Data Analysis.

Are you confused with statistical Techniques like z-test, t-test, ANOVA, MANOVA, Regression, Logistic Regression, Chi-Square, Correlation, Association, SEM, multilevel model, mediation and moderation etc. for your Data Analysis...??

Then Contact Me. I will solve your Problem...

加油吧，打工人！