python贝叶斯函数的简单介绍

python 朴素贝叶斯怎样获得概率结果

朴素：特征条件独立贝叶斯：基于贝叶斯定理根据贝叶斯定理，对一个分类问题，给定样本特征x，样本属于类别y的概率是 p(y|x)=p(x|y)p(y)p(x) 在这里，x是一个特征向量，将设x维度为M。

成都创新互联从2013年开始，是专业互联网技术服务公司，拥有项目网站建设、成都网站建设网站策划，项目实施与项目整合能力。我们以让每一个梦想脱颖而出为使命，1280元临海做网站,已为上家服务,为临海各地企业和个人服务,联系电话:028-86922220

python scikit-learn 有什么算法

1，前言

很久不发文章，主要是Copy别人的总感觉有些不爽，所以整理些干货，希望相互学习吧。不啰嗦，进入主题吧，本文主要时说的为朴素贝叶斯分类算法。与逻辑回归，决策树一样，是较为广泛使用的有监督分类算法，简单且易于理解（号称十大数据挖掘算法中最简单的算法）。但其在处理文本分类，邮件分类，拼写纠错，中文分词，统计机器翻译等自然语言处理范畴较为广泛使用，或许主要得益于基于概率理论，本文主要为小编从理论理解到实践的过程记录。

2，公式推断

一些贝叶斯定理预习知识：我们知道当事件A和事件B独立时，P（AB）=P（A）（B），但如果事件不独立，则P（AB）=P（A）P（B|A）。为两件事件同时发生时的一般公式，即无论事件A和B是否独立。当然也可以写成P（AB）=P（B）P（A|B），表示若要两件事同事发生，则需要事件B发生后，事件A也要发生。

由上可知，P（A）P（B|A）= P（B）P（A|B）

推出P（B|A）=

其中P（B）为先验概率，P（B|A）为B的后验概率，P（A|B）为A的后验概率（在这里也为似然值），P（A）为A的先验概率（在这也为归一化常量）。

由上推导可知，其实朴素贝叶斯法就是在贝叶斯定理基础上，加上特征条件独立假设，对特定输入的X（样本，包含N个特征），求出后验概率最大值时的类标签Y（如是否为垃圾邮件），理解起来比逻辑回归要简单多，有木有，这也是本算法优点之一，当然运行起来由于得益于特征独立假设，运行速度也更快。

. 参数估计

3，参数估计

由上面推断出的公式，我们知道其实朴素贝叶斯方法的学习就是对概率P(Y=ck)和P(X(j)=x(j)|Y=ck)的估计。我们可以用极大似然估计法估计上述先验概率和条件概率。

其中I(x)为指示函数，若括号内成立，则计1，否则为0。李航的课本直接给出了用极大似然（MLE）估计求出的结果，并没给推导过程，

我们知道，贝叶斯较为常见的问题为0概率问题。为此，需要平滑处理，主要使用拉普拉斯平滑，如下所示：

K是类的个数，Sj是第j维特征的最大取值。实际上平滑因子λ=0即为最大似然估计，这时会出现提到的0概率问题；而λ=1则避免了0概率问题，这种方法被称为拉普拉斯平滑。

4，算法流程

5，朴素贝叶斯算法优缺点

优点：朴素贝叶斯模型发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率

需调参较少，简单高效，尤其是在文本分类/垃圾文本过滤/情感判别等自然语言处理有广泛应用。

在样本量较少情况下，也能获得较好效果，计算复杂度较小，即使在多分类问题。

无论是类别类输入还是数值型输入（默认符合正态分布）都有相应模型可以运用。

缺点：0概率问题，需要平滑处理，通常为拉普拉斯平滑，但加一平滑不一定为效果最好，

朴素贝叶斯有分布独立的假设前提，生活中较少完全独立，在属性个数比较多或者属性之间相关性较大时，NBC模型的分类效率比不上决策树模型。而在属性相关性较小时，NBC模型的性能最为良好。

模型注意点：

1，大家也知道，很多特征是连续数值型的，一般选择使用朴素贝叶斯高斯模型。

2，为避免0概率事件，记得平滑，简单一点可以用『拉普拉斯平滑』。先处理处理特征，把相关特征去掉，

3，朴素贝叶斯分类器一般可调参数比较少，需集中精力进行数据的预处理等特征工程工作。

6，Scikit-learn三大朴素贝叶斯模型

Scikit-learn里面有3种不同类型的朴素贝叶斯（：

1，高斯分布型模型：用于classification问题，假定属性/特征是服从正态分布的，一般用在数值型特征。,

2，多项式型模型：用于离散值模型里。比如文本分类问题里面我们提到过，我们不光看词语是否在文本中出现，也得看出现的次数。如果总词数为n，出现词数为m的话，说起来有点像掷骰子n次出现m次这个词的场景。

3，伯努利模型：这种情况下，就如提到的bag ofwords处理方式一样，最后得到的特征只有0(没出现)和1(出现过)。

7. Scikit-learn算法实践

小编通过实现朴素贝叶斯三种模型以及主要分类算法，对比发现跟SVM，随机森林，融合算法相比，贝叶斯差距明显，但其时间消耗要远低于上述算法，以下为主要算法主要评估指标）。

8. Python代码

# -*-coding: utf-8 -*-

importtime

fromsklearn import metrics

fromsklearn.naive_bayes import GaussianNB

fromsklearn.naive_bayes import MultinomialNB

fromsklearn.naive_bayes import BernoulliNB

fromsklearn.neighbors import KNeighborsClassifier

fromsklearn.linear_model import LogisticRegression

fromsklearn.ensemble import RandomForestClassifier

fromsklearn import tree

fromsklearn.ensemble import GradientBoostingClassifier

fromsklearn.svm import SVC

importnumpy as np

importurllib

# urlwith dataset

url ="-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data"

#download the file

raw_data= urllib.request.urlopen(url)

#load the CSV file as a numpy matrix

dataset= np.loadtxt(raw_data, delimiter=",")

#separate the data from the target attributes

X =dataset[:,0:7]

#X=preprocessing.MinMaxScaler().fit_transform(x)

#print(X)

y =dataset[:,8]

print("\n调用scikit的朴素贝叶斯算法包GaussianNB ")

model= GaussianNB()

start_time= time.time()

model.fit(X,y)

print('training took %fs!' % (time.time() - start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

print("\n调用scikit的朴素贝叶斯算法包MultinomialNB ")

model= MultinomialNB(alpha=1)

start_time= time.time()

model.fit(X,y)

print('training took %fs!' % (time.time() - start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

print("\n调用scikit的朴素贝叶斯算法包BernoulliNB ")

model= BernoulliNB(alpha=1,binarize=0.0)

start_time= time.time()

model.fit(X,y)

print('training took %fs!' % (time.time() - start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

print("\n调用scikit的KNeighborsClassifier ")

model= KNeighborsClassifier()

start_time= time.time()

model.fit(X,y)

print('training took %fs!' % (time.time() - start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

print("\n调用scikit的LogisticRegression(penalty='l2') ")

model= LogisticRegression(penalty='l2')

start_time= time.time()

model.fit(X,y)

print('training took %fs!' % (time.time() - start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

print("\n调用scikit的RandomForestClassifier(n_estimators=8) ")

model= RandomForestClassifier(n_estimators=8)

start_time= time.time()

model.fit(X,y)

print('training took %fs!' % (time.time() - start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

print("\n调用scikit的tree.DecisionTreeClassifier() ")

model= tree.DecisionTreeClassifier()

start_time= time.time()

model.fit(X,y)

print('training took %fs!' % (time.time() - start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

print("\n调用scikit的GradientBoostingClassifier(n_estimators=200) ")

model= GradientBoostingClassifier(n_estimators=200)

start_time= time.time()

model.fit(X,y)

print('training took %fs!' % (time.time() - start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

print("\n调用scikit的SVC(kernel='rbf', probability=True) ")

model= SVC(kernel='rbf', probability=True)

start_time= time.time()

model.fit(X,y)

print('training took %fs!' % (time.time() - start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

"""

# 预处理代码集锦

importpandas as pd

df=pd.DataFrame(dataset)

print(df.head(3))

print(df.describe())##描述性分析

print(df.corr())##各特征相关性分析

##计算每行每列数据的缺失值个数

defnum_missing(x):

return sum(x.isnull())

print("Missing values per column:")

print(df.apply(num_missing, axis=0)) #axis=0代表函数应用于每一列

print("\nMissing values per row:")

print(df.apply(num_missing, axis=1).head()) #axis=1代表函数应用于每一行"""

如何在Python中实现这五类强大的概率分布

R编程语言已经成为统计分析中的事实标准。但在这篇文章中，我将告诉你在Python中实现统计学概念会是如此容易。我要使用Python实现一些离散和连续的概率分布。虽然我不会讨论这些分布的数学细节，但我会以链接的方式给你一些学习这些统计学概念的好资料。在讨论这些概率分布之前，我想简单说说什么是随机变量（random variable）。随机变量是对一次试验结果的量化。

举个例子，一个表示抛硬币结果的随机变量可以表示成

Python

X = {1 如果正面朝上,

2 如果反面朝上}

随机变量是一个变量，它取值于一组可能的值（离散或连续的），并服从某种随机性。随机变量的每个可能取值的都与一个概率相关联。随机变量的所有可能取值和与之相关联的概率就被称为概率分布（probability distributrion）。

我鼓励大家仔细研究一下scipy.stats模块。

概率分布有两种类型：离散（discrete）概率分布和连续（continuous）概率分布。

离散概率分布也称为概率质量函数（probability mass function）。离散概率分布的例子有伯努利分布（Bernoulli distribution）、二项分布（binomial distribution）、泊松分布（Poisson distribution）和几何分布（geometric distribution）等。

连续概率分布也称为概率密度函数（probability density function），它们是具有连续取值（例如一条实线上的值）的函数。正态分布（normal distribution）、指数分布（exponential distribution）和β分布（beta distribution）等都属于连续概率分布。

若想了解更多关于离散和连续随机变量的知识，你可以观看可汗学院关于概率分布的视频。

二项分布（Binomial Distribution）

服从二项分布的随机变量X表示在n个独立的是/非试验中成功的次数，其中每次试验的成功概率为p。

E(X) = np, Var(X) = np(1−p)

如果你想知道每个函数的原理，你可以在IPython笔记本中使用help file命令。 E(X)表示分布的期望或平均值。

键入stats.binom?了解二项分布函数binom的更多信息。

二项分布的例子：抛掷10次硬币，恰好两次正面朝上的概率是多少？

假设在该试验中正面朝上的概率为0.3，这意味着平均来说，我们可以期待有3次是硬币正面朝上的。我定义掷硬币的所有可能结果为k = np.arange(0,11)：你可能观测到0次正面朝上、1次正面朝上，一直到10次正面朝上。我使用stats.binom.pmf计算每次观测的概率质量函数。它返回一个含有11个元素的列表（list），这些元素表示与每个观测相关联的概率值。

您可以使用.rvs函数模拟一个二项随机变量，其中参数size指定你要进行模拟的次数。我让Python返回10000个参数为n和p的二项式随机变量。我将输出这些随机变量的平均值和标准差，然后画出所有的随机变量的直方图。

泊松分布（Poisson Distribution）

一个服从泊松分布的随机变量X，表示在具有比率参数（rate parameter）λ的一段固定时间间隔内，事件发生的次数。参数λ告诉你该事件发生的比率。随机变量X的平均值和方差都是λ。

E(X) = λ, Var(X) = λ

泊松分布的例子：已知某路口发生事故的比率是每天2次，那么在此处一天内发生4次事故的概率是多少？

让我们考虑这个平均每天发生2起事故的例子。泊松分布的实现和二项分布有些类似，在泊松分布中我们需要指定比率参数。泊松分布的输出是一个数列，包含了发生0次、1次、2次，直到10次事故的概率。我用结果生成了以下图片。

你可以看到，事故次数的峰值在均值附近。平均来说，你可以预计事件发生的次数为λ。尝试不同的λ和n的值，然后看看分布的形状是怎么变化的。

现在我来模拟1000个服从泊松分布的随机变量。

正态分布（Normal Distribution）

正态分布是一种连续分布，其函数可以在实线上的任何地方取值。正态分布由两个参数描述：分布的平均值μ和方差σ2 。

E(X) = μ, Var(X) = σ2

正态分布的取值可以从负无穷到正无穷。你可以注意到，我用stats.norm.pdf得到正态分布的概率密度函数。

β分布（Beta Distribution）

β分布是一个取值在 [0, 1] 之间的连续分布，它由两个形态参数α和β的取值所刻画。

β分布的形状取决于α和β的值。贝叶斯分析中大量使用了β分布。

当你将参数α和β都设置为1时，该分布又被称为均匀分布（uniform distribution）。尝试不同的α和β取值，看看分布的形状是如何变化的。

指数分布（Exponential Distribution）

指数分布是一种连续概率分布，用于表示独立随机事件发生的时间间隔。比如旅客进入机场的时间间隔、打进客服中心电话的时间间隔、中文维基百科新条目出现的时间间隔等等。

我将参数λ设置为0.5，并将x的取值范围设置为 $[0, 15]$ 。

接着，我在指数分布下模拟1000个随机变量。scale参数表示λ的倒数。函数np.std中，参数ddof等于标准偏差除以 $n-1$ 的值。

结语（Conclusion）

概率分布就像盖房子的蓝图，而随机变量是对试验事件的总结。我建议你去看看哈佛大学数据科学课程的讲座，Joe Blitzstein教授给了一份摘要，包含了你所需要了解的关于统计模型和分布的全部。

朴素贝叶斯分类算法的sklearn实现

1、背景

《机器学习实战》当中，用python根据贝叶斯公式实现了基本的分类算法。现在来看看用sklearn，如何实现。还拿之前的例子，对帖子的分类。数据如下：

补充：题目的值左边是几个人的评论，右边是评论属于侮辱类（1）、正常类（0），需要进行文本分类，且再有新的文本过来时能自动划分至0或1。

2、分类

（1）算法的准备

通过查看sklearn的训练模型函数，fit(X, Y)，发现只需要准备两个参数。一个是数据的矩阵，另一个是数据的分类数组。首先就是将以上的文本转化成矩阵。

在前一章其实已经讲解过如何将文本转化成矩阵。这里将示意的再补充下。

a.首先选取所有的单词，形成列，也可理解为属性。例如：

b.其次将遍历每个文本，填满上述列的值。文本出现过列的次，填一。没有出现过填0。比如第一句就是：my dog has flea problems help please，可表示为：

同理所有的文本都可如此表示，所以就形成了一个数字的矩阵。

（2）beyes模型的选择

在完成数据的准备以后，就可以直接调用sklearn的模型和函数完成模型的训练啦。但在beyes模型的选择的时候发现，beyes下有多个模型可选择，所以这个会让人纠结。接下来共同了解下这些模型：

a.高斯模型（GaussianNB）

高斯模型是对于每个属性的值是连续的，且服从高斯分布时可使用：

比如人的身高，比如花的高度等等。当然你也可将这些数据离散化，比如按等距划分、等频划分成离散的值，但可能效果都没有直接用高斯模型来计算的好。

用法：class sklearn.naive_bayes.GaussianNB

参数：无

b.多项式模型（MultinominalNB）

如果大部分是多元离散值，则采用多项式模型要好些。多项式模型，通常就是构造参数向量，然后通过极大似然估计来寻求参数的最有值。

这里只简单的略列一些公式，具体可查询更多资料。从这个计算过程中可得出，这里引入啦一个平滑先验值alpha，这个值在模型训练的时候也会用到。通常alpha0，可引入不在训练集的特征，尤其当alpha=1，成为拉普拉丝平滑。具体alpha取值对模型的影响可附件的图。

用法：class sklearn.naive_bayes.MultinomialNB(alpha=1.0,fit_prior=True,class_prior=None)

参数：

alpha：浮点数，就是上述说的引入平滑的值；

fit_prior：bool值，如果为Ture，则不用去学习P(y=ck),以均匀分布替代，否则则去学习P（y=ck）（不懂）

class_prior:一个数组。它指定了每个分类的先验概率P(y=c1),P(y=c2)…..,若指定了该参数

则每个分类的先验概率无需学习（不懂）

c.伯努利模型（BernoulliNB）

如果特征值为二元离散值或是稀疏的多元离散值，则可采用伯努利模型。

公式：class sklearn.naive_bayes.BernoulliNB(alpha=1.0,binarize=0.0,fit_prior=Ture,

class_prior=None)

参数：

binarize:一个浮点数或者None，如果为浮点数则以该数值为界，特征值大于它的取1，小于的为0 。如果为None，假定原始数据已经二值化

其它参数同上。

通过以上的模型对比和分析，由于文本分析转化后是很多二项取值的稀疏矩阵，因此选取伯努利模型效果会更佳。

补充：alpha、binarize值对模型效果的影响

请问你会用python实现贝叶斯网络了吗

Bayesian-belief-networks允许你用纯Python创建贝叶斯信念网络和其他图模型，目前支持四种不同的推理方法。

支持的图模型

离散变量的贝叶斯信念网络

有着高斯分布的连续变量的高斯贝叶斯网络

推理引擎

消息传递和联合树算法（Junction Tree Algorithm）

和积算法（The Sum Product Algorithm）

MCMC采样的近似推理

高斯贝叶斯网络中得Exact Propagation

分享文章：python贝叶斯函数的简单介绍
路径分享：http://hbruida.cn/article/hiijdg.html

python贝叶斯函数的简单介绍

python 朴素贝叶斯怎样获得 概率结果

python scikit-learn 有什么算法

如何在Python中实现这五类强大的概率分布

朴素贝叶斯分类算法的sklearn实现

请问你会用python实现贝叶斯网络了吗

其他资讯

python 朴素贝叶斯怎样获得概率结果