“利用贝叶斯分类器检测虚假信息”-海外周刊网

本篇文章1708字，读完约4分钟

作者

来源

现在假信息太多了，不容易找到准确的来源。本论文的目的是利用朴素贝叶斯分类器对真伪信息进行分类。

朴素贝叶斯分类器是利用贝叶斯定理对数据进行分类的明确算法。让我们来看一个例子

假设我们想预测一下今天下雨的概率。这几天，我小心翼翼地收集了数据，注意天上的云。这是你的数据表。

该表显示了特性出现的次数，无论是否在下雨。假设有灰色的云或白云。我们拥有的其实是包含下雨概率的表。

有数据的话，进行预测吧。今天我们看到了灰色的云。没有白云。下雨还是晴天？要回答这个问题，必须采用定理。

出了灰云，下雨的概率就等于前面的灰云。

根据我们的数据

p(a ) (降雨概率) =11/(50 ^ 11 ) =1/6

p(b ) (灰云出现的概率) =1(因为确认了灰云的出现)

p(a|b ) =[ ( ) *(1/6) ]/1

p(a|b ) =

通过对朴素贝叶斯分类器的简要介绍，讨论使用朴素贝叶斯分类器检测假信息。

考虑到信息为假，统计标题中单词出现的次数。转换为概率，计算标题为假的概率，与标题为真的概率进行对照。

我的数据集有21000多个真实信息实例和23000个虚假信息实例。这在正常的数据集中可能看起来很不平衡，但这种不平衡是计算初始概率所必需的。标题是假概率。

代码:

这是程序的三个依赖。熊猫正在读csv文件。字符串是字符串操作。

true _ text = {2} false _ text = true = PD.read _ CSV ( '/users/xxxxxxx /桌面. true.CSV ' )在false=PD .中

def extract _ word (类别、目录):forentrincategory [ ' title ' ]:word = entry.split ( )前向世界: lowerd :前向世界

该脚本考虑到标题是假信息，对单词的出现次数进行计数，在词典的条目中添加计数，对各单词的出现次数进行计数。

defcount_to_prob(dictionary，长度):fortermindictionary :字典= dictionary /长度

该函数通过计算伪软文标题或实软文标题中的总字符数，将数字转换为概率。

def calculate _ probability (字典，x，初始):x .翻译( str .标记翻译( '，' )字符串) x = x

这个函数乘以相关概率，计算标题的“分数”。为了进行预测，使用伪信息词典和真信息词典时比较分数。在假信息词典返回的得分高的情况下，模型预测标题为假信息。

true_text提取_ words (真、真_文本)假_文本=提取_ words (假、假_文本)真_计数 false _ text = count _ to _ prob (真_ text )、真_ count ) false _ text = count _ to _ prob (假_ text、假文本、假)

该脚本采用了上述所有功能，可以为每个单词编写概率词典，以便以后计算标题的“分数”。

x = ' hillaryclinneatsdonaldtrump ' calculate _ probability ( false _ text，x，1 )计算_可能性( true _ text，1 )

最后一个脚本通过确定标题“hillaryclintoneatsdonaldtrump”来测试模型。

真实的

你可以改进我的程序。

为了让其他人能够改善那个，制定这个程序。请考虑以下几点。

一个单词本身没有任何意义，但一个短语可以更深入地理解信息是否是假的。

在互联网上爬来爬去获取更大的数据集

原文链接:转发sdata science/using-Bayesian-classifiers-to-detect-false-news-3022 c 8255 FBA

欢迎访问关注潘闯人工智能博客的网站:

sklearn机器学习中文官方文档:

第123季/

docs .潘川/

标签: #信息事件检测模型

标题：“利用贝叶斯分类器检测虚假信息”

地址：http://www.hongyupm.com/gnyw/8544.html

“利用贝叶斯分类器检测虚假信息”

看了又看的文章

绵阳ETC交通龙门架系统原理

“收旧衣服如何赚钱（回收旧衣服一年赚200万）”

二次构造柱泵-怎样设置防泵车倾翻？

web界面设计工具_web界面设计工具易用

“张朝阳：无人机+影像摄影会出现精彩的文案产生方法”

“仓前高铁新城一期红线划定涉及仓前街道的4个村。”

木门代理加盟 |“高贵”的肤感橡木门有哪些优点？

“万悦新天地最新动态”

“华为一项全新的手机外观专利获得授权: 使用环绕屏设计，延伸到手机背面”

“先取登机牌还是先托运（第一次坐飞机详细流程）”

海外周刊网热门排行

全球优质媒体流量一站采买！这个维卓神器终于来了！

“梁光列重庆事情是什么与重庆事情完善揭秘猎奇百科”

“推荐几个带颜色的网站（你懂得）”

“联通5元保号套餐（联通畅爽卡5元申请入口）”

“羊奶世家中央台曝光”

“马云花名叫什么？阿里巴巴内部的花名大全”

“不接花呗催款电话的后果，杭州0571网贷催收电话”

“衡阳市公安局各支队长(衡阳市公安局最新人事)”

“梦泉面膜曝光央视信息事情”

“《金陵十三钗》书摘：死了变最恶的鬼掐死这畜生”

海外周刊网最新发布