[发明专利]一种基于特征级与传播关系网络的评论文本置信检测方法有效
| 申请号: | 202110529114.5 | 申请日: | 2021-05-14 |
| 公开(公告)号: | CN113434628B | 公开(公告)日: | 2023-07-25 |
| 发明(设计)人: | 荣欢;季俊如 | 申请(专利权)人: | 南京信息工程大学 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/169;G06F40/194;G06F40/30;G06N7/01 |
| 代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 田凌涛 |
| 地址: | 210044 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 特征 传播 关系 网络 评论 文本 置信 检测 方法 | ||
本发明公开了一种基于特征级与传播关系网络的评论文本置信检测方法和装置,检测方法包括:对评论者与评论文本分别进行特征提取,得到预处理之后的特征集合;结合贝塔分布与伯努利分布和类贝叶斯生成型概率模型,获得任意评论者及其所对应评论文本的可疑度分布,对评论文本进行初步筛选;构建含有评论者(A)‑评论文本(R)‑评论对象(P)三元关系的ARP传播关系网;利用置信传播计算得出ARP传播关系网中各类节点的最终置信度C;为R类节点计算可疑度S=1‑C并降序排列,对评论文本进行再次筛选。本发明能够防治产品虚假宣传,并在一定程度上减少由虚假信息所造成的诱导性购买,进一步提高产品质量保障,为改善民众消费体验作出极大贡献。
技术领域
本发明涉及评论文本分类技术领域,具体而言涉及一种基于特征级与传播关系网络的评论文本置信检测方法。
背景技术
随着互联网技术的普及与发展,“众包”这一产业逐渐发展起来并不断壮大,为人们的生活提供了许多便利,也同时创造了一种新型就业方式,极大可能的满足了人们的需求。然而,任何事物都具有双面性,众包在为人们提供服务的同时,也同样创造诸多不便。当代社会,随着电子商务的不断发展,“社交电商”营销模式逐渐壮大,众包也在此中扮演了一个重要的角色。网购让当代人的生活方式焕然一新,然而,市场中存在部分商家利用众包蓄意发布不全面、不具体、与实际情况不相符的虚假宣传内容诱导民众消费,导致消费者实际购买结果与期望极其不符,各类平台接收的投诉案件层出不穷,给国民经济利益造成了严重损失,对社会经济秩序的正常运转带来了不良影响。因此,需要研究防治产品虚假宣传的关键技术,进而减少由虚假信息所造成的诱导性购买,提高产品质量,改善消费体验。评论的分类是自然语言处理的一个重要应用。通常情况下,人们需要结合虚假评论文本的特征对众包评论文本中的欺骗性文本进行识别,以获得目标产品的真实评价,这一过程被称为虚假评论检测。现有的欺骗性评论文本检测与识别技术多采用朴素贝叶斯(NaiveBayesianModel,NBM)模型或者支持向量机(SupportVectorMachine,SVM)模型对评论文本进行主成分分析并提取特征后再对分类器进行训练以识别出目标文本,例如专利号为CN111666480A的发明中提出一种基于滚动式协同训练的虚假评论识别方法,同时考虑了评论者和评论文本的特征,综合后对虚假评论进行识别;并且在说明书中提及采用的分类算法可以包括:随机森林、逻辑回归…朴素贝叶斯分类模型等。但由于模型结构的单一性导致了其在实际场景中很难模拟复杂的虚假评论。除此之外,众包评论文本基数大,直接对评论文本检测复杂程度太深,因此本发明拟将评论者与评论文本综合考虑的思路以减小方法复杂度,即通过虚假评论者的检测来识别虚假评论文本。又考虑到实际情况下“社交电商”这一营销模式中转发这一功能,上下文语义环境分析的缺失导致了欺骗性文本识别的不完整性,因此对单个评论文本进行单独的识别检测也无法确定准确性。
另外,对于欺骗性评论文本检测通常流行的方法是使用监督文本分类技术,然而欺骗性评论文本的识别通常使用人类先验知识进行的,由于在标记过程中可能存在主观性,监督学习的方法无疑增加了错误标记评论的可能性。
发明内容
本发明针对现有技术中的不足,提供一种基于特征级与传播关系网络的评论文本置信检测方法,结合传统贝塔分布与伯努利分布以及置信传播算法,得到尽可能准确的评论文本可疑度分析,提高了众包评论文本的可靠性,为众包评论文本集成提供了有效的数据支撑,无监督学习法的引用很好的避免了人工标注引入的成本与误差。ARP传播关系网的引入弥补了基于特征级可疑度分布估计信息上的缺失,提供了考虑评论文本上下文语义环境的可能,适合处理众包评论文本的欺骗性判断。
为实现上述目的,本发明采用以下技术方案:
第一方面,本发明实施例提出了一种基于特征级与传播关系网络的评论文本置信检测方法,所述检测方法包括:
S1,输入需要处理的众包评论文本,对评论者与评论文本分别进行特征提取,得到预处理之后的特征集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110529114.5/2.html,转载请声明来源钻瓜专利网。





