第一点:在文章中大量出现;
第②点:对判断没啥大用
第二步:获取词频向量;
第一点:在文章中大量出现;
第②点:对判断没啥大用
第二步:获取词频向量;
这是第四节的内容主要为垃圾郵件自动识别与分类算法。
简单来说对于垃圾邮件的预测实际上就是一个分类问题,要实现垃圾邮件的预测我们可以对垃圾邮件进行特征提取,然后进行分类实现
5. 通过贝叶斯算法训练数据
6. 通过贝叶斯算法测试数据
贝叶斯算法的原理就是,对于已知类别通过特征计算該事物分别属于各个类的概率,概率最大的那个类别就是该事物的估计类别
首先我们使用python文本数据分析实现贝叶斯算法: 第二步是数据嘚准备,可以考虑自己爬取自己的邮箱邮件也考虑下载网上的数据。这里数据准备不是很多全部为txt格式的文本文件,分为垃圾邮件和非垃圾邮件文件名分别为f_X.txt和t_X.txt,其中X为数字表示第几个文件。因此首先,我们从文件名中解析出每一封邮件的分类数字:
# 从文件名中解析分类数字
下面是实现垃圾邮件的分类预测
原先我们使用的是邮件内容进行分类的,如果数据量不是很大例如几百条可以考虑使用郵件title内容进行分词和存储,否则分词太多可能无法覆盖。
# 把测试数据也拿出来与测试数据整合到一起
后面这部分为什么怎么都删不掉。%>_<%
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。