ng机器学习视频笔记(四) ——logistic回归
发布日期:2021-08-18 16:37:33 浏览次数:8 分类:技术文章

本文共 1913 字,大约阅读时间需要 6 分钟。

ng机器学习视频笔记(四)

——logistic回归

 (转载请附上本文链接——linhxx)

 

一、概述

1、基本概念

         logistic回归(logistic regression),是一个分类(classification)算法(注意不是回归算法,虽然有“回归”二字),用于处理分类问题,即结果是离散的。另外,由于有固定的结果,其是监督学习算法。

         例如,预测天气、预测是否通过考试等,结果是离散的值,而预测房价这种就属于“回归”算法要解决的问题,而不是分类算法解决的问题。

2、公式

         现在考虑只有两种结果情况下的logistic回归,结果只有0和1两种,即预测事件是否发生,1表示发送,0表示不发生。其h函数公式如下图所示:

 

 其中,g函数又层S型函数(sigmoid function)。易知g函数范围:0<=g(z)<=1。

函数图像如下:

 

h(x)=g(z)的值,表示y=1的概率。即h(x)=p(y=1|x; θ)。y=1表示事件发生。因此h函数的结果即为事件发生的概率。

由于事件只有发生和不发生两种状态,因此,事件发生+事件不发生的概率为1,即如下公式:

 

 

二、决策边界

决策边界(decision boundary)表示h(x)=0时的x的表达式。

         由于h函数是表示事件发生的概率,但是事件只有发生和不发生两种情况,因此需要将预测计算的概率和最终的结果联系起来。由于概率在0~1分布,因此,可以认为当h(x)>=0.5时,y=1。即h(x)>=0.5时,预测事件发生。同理,h(x)<0.5时,预测结果是y=0,即事件不会发生。即,只有两个结果的情况下,一个结果发生的概率超过一半,则认为其会发生。

         另外,由上面g(z)函数的图,可以知道,当z>=0时g(z)>=0.5,因此,z>=0时y=1。根据样本集的分布,决策边界可以分为线性的和非线性的。

 

三、代价函数

1、不能使用线性回归的代价函数公式

         根据下图所示线性回归的代价函数,把h(x)用上面的1/(1+e-z)带入,求出来的结果,会是一个存在非常多极小值的函数,这样的代价函数称为非凸函数(non-convex)。

 

         非凸函数的缺点在于,其极小值很多。根据梯度下降法,可以知道梯度下降只能求得极小值,因此对于非凸函数而言,最终得到的很可能是一个非最优化的代价函数,即预测结果可能很差,因此,需要对此公式进行变换。

2、公式

 

         变换后的公式如上述所示。

3、公式分析

1)y=1

         y=1时代价函数cost(h(x),y)=-log(h(x)),此时的函数图如下:

 

         即,当y=1且预测结果h(x)=1时,代价是0;当h(x)=0时代价是正无穷大。

         这个很好理解,因为事件只有发生和不发生,y=1表示真实情况下事件是发生的,此时如果预测也是发生则没有代价,如果预测是不发生则完全错误,代价非常大。由于h(x)>=0.5时结果都会当作发生,因此当h(x)<0.5时代价会陡增。

2)y=0

         y=0时代价函数cost(h(x),y)=-log(1-h(x)),函数图如下:

        

         分析过程同y=1。

4、简化代价函数

         由于y只有0、1两种情况,此时代价函数可以简化,如下:

      

  

         这个就是把上面的情况整合进来,把y=0、y=1带入则还是原来的式子。

 

 

四、梯度下降算法

         方式同线性回归,不断迭代下面的式子,需要注意的是,当有多个特征,要一次性计算出所有的θ,同时带入。

 

         另外,当特征值很大时,需要考虑特征缩放。

         此外,除了梯度下降算法,还可以使用共轭梯度法(conjugate gradient)、变尺度法(BFGS)、限制变尺度法(L-BFGS)等,这些算法的共同点是不需要认为的选择α、收敛速度快,但是缺点是过程非常复杂。

 

五、一对多分类

         当分类的结果有多种,而不仅仅是事件发生和不发生,例如预测天气,有晴、阴、雨等多种情况,此时称为一对多分类 (one-vs-all、one-vs-rest)。

         这种情况下,采用的方法是,把结果拆成多种,每种的事件发生是1、不发生是0。分类图如下:

 

例如,预测明天的天气,把y=1、2、3(三角形、红叉、正方形)分别表示晴、阴、雨三种天气,则逐个进行预测,当预测是否晴天,y=1看作一类,y=2、3看作一类进行讨论。

         其他情况类推。

         此时,分别计算出h(x)=p(y=i|x; θ) (i=1,2,3)的概率,并得出最大概率是分到哪类。

 

 

——written by linhxx

 

更多最新文章,欢迎关注微信公众号“决胜机器学习”,或扫描右边二维码。

转载于:https://www.cnblogs.com/linhxx/p/8412695.html

转载地址:https://blog.csdn.net/weixin_30897233/article/details/97404434 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:生成指定范围的一组随机数并求平均值
下一篇:数据库连接池的理解和使用(转)

发表评论

最新留言

能坚持,总会有不一样的收获!
[***.219.124.196]2024年04月12日 11时00分26秒

关于作者

    喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!

推荐文章

《国富论》精髓:亚当·斯密提出的对后世影响深远的三个经济学理论:劳动分工理论、生产要素理论和宏观调控理论 2019-04-26
《动荡的世界》精髓:什么是动物精神?动物精神又是怎么影响2008年全球经济危机的,以及我们该如何预防动物精神,避免危机再次发生。 2019-04-26
《投资最重要的事》精髓:利用逆向思维,掌握既冷静又勇猛的投资方法,成为投资界真正厉害的人。 2019-04-26
《周期》书中的精髓:如何利用周期,掌握世界的发展趋势,实现财富积累。 2019-04-26
《伟大的博弈》书中的精髓:华尔街是如何从一条小街,一步步发展为世界金融中心的。 2019-04-26
《逃不开的经济周期》书中的精髓:经济周期是推动创新变革和经济增长以及复兴的关键力量。 2019-04-26
《朋友还是对手》书中的精髓:奥地利学派和芝加哥学派两派共识远多于分歧,两派首先是朋友,其次才是对手。 2019-04-26
《动物精神》书中的精髓:人类的非理性面影响经济决策,这些有可能是金融危机的根源。 2019-04-26
《赢家的诅咒》书中的精髓:人性的复杂让主流经济学出现了诸多失灵,如何用更多理论完善经济学大厦是经济学家的重要使命 2019-04-26
《巴菲特法则》书中的精髓:用好巴菲特企业前景投资法则,股票投资稳赚不赔。 2019-04-26
《战胜华尔街》书中的精髓:业余投资者如何根据行业特点选好股票,赚得比专业的投资者还要多? 2019-04-26
《巴菲特的估值逻辑》书中的精髓:在投资过程中不断总结经验,不断提升投资能力,不断探索、加深对好公司的理解,成就了巴菲特的投资神话。 2019-04-26
《股市稳赚》书中的精髓:用简单的神奇公式进行股票投资,获得稳定而持久的收益。 2019-04-26
《曾国藩的经济课》书中的精髓:我们如何像曾国藩一样,在遇到道德和环境冲突时,既能保持自己的道德,又能调动资源,帮助自己成事。 2019-04-26
《富人的逻辑》书中的精髓:为什么暴富起来的人会在短期内失去财富,我们又该如何去创造财富和持续拥有财富。 2019-04-26
作文提升~老师整理的优美比喻句太实用 2019-04-26
作文提升~老师整理的优美拟人句太实用 2019-04-26
作文提升~老师整理的优美排比句太实用 2019-04-26
作文提升~老师整理的夸张句,太实用了,赶快收藏 2019-04-26
作文提升~写景常用的拟人句,很经典 2019-04-26