[发明专利]一种文本信息的过滤方法、装置和电子设备在审
申请号: | 201810476419.2 | 申请日: | 2018-05-17 |
公开(公告)号: | CN109376293A | 公开(公告)日: | 2019-02-22 |
发明(设计)人: | 赵立永;吴新丽;姚笛;李云飞;王文文 | 申请(专利权)人: | 新华网股份有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F17/27 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 张筱宁 |
地址: | 100062 北京市大兴区北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 过滤 决策因子 文本信息 情感分析规则 启发式规则 电子设备 文本过滤 文本 文本信息过滤 元数据规则 复杂场景 过滤装置 决策判定 评论文本 情感倾向 输入决策 信息处理 综合评价 元数据 萃取 解析 判定 分析 | ||
本发明提供一种文本信息的过滤方法,包括先对待分析文本信息进行元数据解析,以降低过滤方法的信息处理规模,提升效率;基于元数据规则、启发式规则、关键词规则和情感分析规则确定决策因子,将决策因子输入决策判定模型,实现对待分析文本的过滤,通过决策判定模型综合评价决策因子对文本信息过滤结果的影响,进一步提高文本过滤结果的准确性;另外,采用启发式规则过滤决策因子可提高文本萃取的速度;采用情感分析规则过滤决策因子,更加准确地确定评论文本的情感倾向,提升文本过滤的准确性;基于关键词规则能够处理复杂场景下的文本信息,提升过滤准确性。本发明还提供了一种文本信息的过滤装置和电子设备。
技术领域
本发明涉及计算机技术领域,具体而言,本发明涉及一种文本信息的过滤方法、装置和电子设备。
背景技术
网络技术的进步,特别新媒体技术的广泛应用,为信息的传播提供了新途径,一方面方便了用户之间的信息交流,但是另一方面也给用户带了困惑,即大量网络用户通过网络发布的评论内容信息中包括不真实、不正确的言论,通过这些言论,网络用户可肆意宣泄自己的情绪,传播负面能量,使评论内容不能客观地反映事件的真实情况,使其他用户对事件的认知产生偏差,进而干扰用户的正常生产和生活。因此,为了降低网络用户评论信息中负能量的影响,维持社会的稳定团结,需要及时发现互联网中的消极信息,以便及时对消极信息做出应对。
目前,信息过滤方法包括关键词、正则表达式和文本分类的过滤方法,关键词过滤是分析文本内容中是否包含待过滤的关键词,具有较快的过滤速度,但是准确率较低;正则表达式采用模糊匹配方法,实现文本内容的关键词过滤,相对于关键词过滤,准确率要高,但是,由于模糊匹配计算量大,文本信息过滤的效率较低;文本分类的过滤方法,需要预先简历完善的分类体系,虽然准确度相对较高,但是需要大量的人工标注,任务繁重,不容易实现,此外,算法的可以复用性较差。
因此,现有技术中的缺陷是:仅基于关键词对文本信息进行过滤,过滤结果不准确,基于正则表达式的模糊关键词对文本信息进行过滤,无法满足对海量文本信息进行实时过滤的需求,基于文本分类匹配进行文本信息的过滤,需要大量人工参与标注文本类别,形成分类体系,导致该方法人力成本过高且准确度不高,实际产品适用性差。
发明内容
本发明的目的旨在至少能解决上述的技术缺陷之一,特别是仅基于关键对文本信息进行过滤,导致过滤结果不准确的技术缺陷。
第一方面,本发明提供一种文本信息的过滤方法,包括如下步骤:
依据待分析文本信息,通过预定的决策模型识别并确定所述待分析文本信息的决策因子;
依据所述决策因子,对所述待分析文本信息进行过滤,得到对所述待分析文本信息的过滤结果。
可选地,所述决策模型包括以下至少一项:
启发式规则、关键词规则和情感分析规则。
可选地,当所述决策模型为启发式规则,所述依据待分析文本信息,通过决策模型识别并确定所述待分析文本信息的决策因子,具体包括:
依据待分析文本信息,识别并确定所述待分析文本信息中与所述启发式规则相匹配的启发式信息,所述启发式信息为所述待分析文本信息的决策因子。
可选地,所述依据待分析文本信息,识别并确定所述待分析文本信息中与所述启发式规则相匹配的启发式信息,具体包括:
依据所述启发式规则,采用正则表达式匹配算法处理所述待分析文本信息,确定所述待分析文本信息中与所述启发式规则相匹配的文本片段在所述待分析文本信息中的位置及规则索引;
依据与所述启发式规则相匹配的文本片段在所述待分析文本信息中的位置及规则索引,识别出所述待分析文本信息中的启发式信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华网股份有限公司,未经新华网股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810476419.2/2.html,转载请声明来源钻瓜专利网。