Luse 发表于 2017-3-23 22:00:45

朴素贝叶斯(一)|朴素贝叶斯和监督分类

本帖最后由 Luse 于 2017-3-24 00:28 编辑

        小伙伴们大家好。今天我们来看一下朴素贝叶斯。这时一个很朴素的算法,其实我们小学时候就接触过这个公式,只是没想到这个公式它这么妖,扩展开辣么磨人。
        本章的资料来源《机器学习实战》,《机器学习》【周志华老师的西瓜书】,Udacity,网上各位小伙伴的帖子。等等。
       
        首先,我们从有趣的监督分类说起。

        我每天都要从家里出发去公司上班,我家附近有一个小伙伴,上班的时间不确定,每天早上他准备出发的时候就会问我到哪里了,我家到公司一半的地方,有一家华润万家。如果我还没有到华润万家,我就会等他,如果我过了华润万家,就会告诉他我快到公司了让他快一点小心迟到。

        在这个例子中,我们可以把我的位置看成一个特征,把华润万家作为一个分类器。根据分类器可以把特征分成两类,得到不同的结果。可以用下图表示。

       

        从图上可以看出来,这是一个一维的数据集。如果我的数据具有两个特征,例如:

        我和小王要去次火锅。我喜欢吃辣的,还喜欢吃肉。又辣又多肉的我最喜欢的,不辣还不给我肉吃的火锅还想我会去花钱?

        我们照样用图表示,可以看出来,我们这次是一个二位特征,可能会有一条线把这个面分成两类。

       

        以此类推,如果我们有n个体征,可能会有m(m<=n-1)维的方式将我们的数据集二分类。并且,通常我们在给定数据集的同时,给定了判断了标准【数据集是带有标签的数据】。

        这么说来,小伙伴们应该可以从感情上理解这个算法是怎么一回事了,下面我们放个大招,尝试从统计学来理解这个算法。

        在这篇文章最开始的地方,我们就提到过,我们很小的时候就接触过这个朴素的公式。我们首先来重温一下。
       
        一个箱子里放着3个白球和4个红球,从中随便摸一个,求摸出来的是白球的概率是多少。

        这个题目非常简单,就是拿白球的数量除以球的总数嘛对不对。敢不敢有点挑战啊!

        好我们现在升级一下,我们先从这个箱子里拿出一个球丢掉,再拿一个球,这时候拿到白球的概率应该怎么求呢?

        这时候,我们拿到白球的概率应该是要先考虑第一个球的情况,此时,我们的计算模型变成了条件概率模型,p(x|y)=p(xy)/p(y)。通过变形,我们还可以得到p(x|y)=(p(y|x)*p(x))/p(y)。【不知道怎么得来的自己去看条件概率,这绝对是高中的知识】

        通过计算不同条件下的概率【可以理解成计算同时满足不同期望的可能】,我们可以得到一个函数f(x),x为特征集合,f(x)为每个特征集合对应的概率的函数关系。很明显,这样的函数关系不止不一个。但如果有一个函数关系,可以让每个特征集合得到的概率最大【即面临的风险最小】,那么我们则选择这个函数关系作为我们的贝叶斯分类器。贝叶斯分类器的本质可以理解为是使期望误差最小的概率函数。

        我们通常有两种方法来构建我们的贝叶斯分类器【风险最小化函数模型】,一种是对x建立p(c|x)的模型,另一种是联合概率分布p(x,c)构建p(c|x)的模型。
       
        看到这里大概就可以理解朴素贝叶斯和监督分类是什么啦,具体的算法实现,我们下次见~

        附:

        一、贝叶斯定理:
        设是两个事件,且p(A)>0,称p(B|A)=p(AB)/p(A)为在事件发生的条件下事件发生的概率。A,B的联合概率公式为:p(AB)=p(A)p(B|A)。
        设S为试验E的样本空间,B1,B2,...,Bn为E的一组事件,若满足BiBj=∅,i⧧j,1,j=1,2,...,n,且B1∪B2∪...∪Bn=S,则称为样本空间S的一个划分。
        设试验E的样本空间为S,A为E的事件,B1,B2,...,Bn为样本空间S的一个划分且p(Bi)>0(i=1,2,...,n),则p(A)=p(B1)p(A|B1)+...+p(Bn)p(A|Bn)称为全概率公式。

        对于该公式,需要熟知的概念:
        先验概率(Prior):P(A)是A的先验概率,可以从已有的训练集中计算分为A类的样本占所有样本的比重得出。
        证据(Evidence):即上式 P(Bn),表示对于某测试样本,特征 Bn 出现的概率。同样可以从训练集中 Bn 特征对应样本所占总样本的比例得出。
        似然(likelihood):即上式 P(Bn|A),表示如果知道一个样本分为A类,那么他的特征为Bn的概率是多少
       
        对于多特征而言:
        贝叶斯决策就是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正,再利用期望值和修正概率做出最优决策。基于贝叶斯定理的朴素贝叶斯模型是应用最为广泛的分类模型之一,其所需估计的参数很少,对缺失数据不太敏感,算法也比较简单,因此用途甚广。



本篇已经发表在公众号【饺子的生信日记】上,如需转载请注明:http://mp.weixin.qq.com/s/CqaDsmTL_YxJbSQ_uLF1SQ

不二如是 发表于 2017-3-23 23:08:49

为啥从文中说有“从图上看”,然而…

Luse 发表于 2017-3-24 00:29:33

不二如是 发表于 2017-3-23 23:08
为啥从文中说有“从图上看”,然而…

hhh忘记插入了~现在有了~

不二如是 发表于 2017-3-24 08:33:16

Luse 发表于 2017-3-24 00:29
hhh忘记插入了~现在有了~


{:10_275:}得概率者,的天下

Luse 发表于 2017-3-24 17:39:57

不二如是 发表于 2017-3-24 08:33
得概率者,的天下

贝叶斯确实是统计学知识用的比较多。嗯,不对,数据分析都多,毕竟不可能真的分析所有的样本空间,所以大多都是抽样分析,然后统计验证。
页: [1]
查看完整版本: 朴素贝叶斯(一)|朴素贝叶斯和监督分类