[发明专利]一种文本信息处理方法、装置及存储介质有效
申请号: | 201711159103.2 | 申请日: | 2017-11-20 |
公开(公告)号: | CN108304442B | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 彭思翔;钱淑钗 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/289 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 黄威 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 信息处理 方法 装置 存储 介质 | ||
本发明实施例公开了一种文本信息处理方法、装置及存储介质,其中该方法包括:接收待识别的文本信息,按照预设的切词规则对所述文本信息进行切词处理,生成至少一个词语;获取所述至少一个词语对应的参数,其中每个参数标识一个词语;根据所述参数及预置的训练模型确定所述文本信息的特征信息,所述训练模型由至少一个类型的模板化文本训练而成;根据所述特征信息确定所述文本信息所属的所述模板化文本的类型。由于该方案在整个过程中不需要进行词性分析,因此,可以使得识别结果不会受到词语变种、标点符号、和/或其他字符等干扰信息的干扰,从而提高了对文本信息进行识别的准确性。
技术领域
本发明涉及通信技术领域,具体涉及一种文本信息处理方法、装置及存储介质。
背景技术
文本信息是社交平台的主要信息载体,在需要大量发送类似内容的文本信息时,可以通过模型生成模版化文本并进行发送。当需要对文本信息进行处理时,可以通过对接收到的文本信息进行识别,以便根据识别结果对该文本信息进行相应的处理,例如,对识别出的垃圾信息进行拦截或者屏蔽等,因此,如何准确地识别出垃圾信息等至关重要。
现有技术中,在发送文本信息,如发送电子邮件、即时通讯信息、博客、朋友圈及直播弹幕等场景中,当接收到文本信息时,首先对该文本信息执行切词及词性分析等特征提取的步骤,提取出一个或多个词语,例如,根据主谓宾进行切词,提取出一个或多个词语。然后,将一个或多个词语传给训练好的模型进行预测处理,由于该模型由模版化文本训练而成,因此,进行预测处理后可以识别出该文本信息所属的模版化文本的类型,即识别出该文本信息是通过哪种类型的模型生成的模版化文本。例如,是否属于垃圾信息等。
由于现有技术的方案十分依赖于词性分析的准确度,而对于采用了干扰信息的文本信息而言,其词性分析的准确度均较低,所以,现有方案对文本信息识别的准确性并不高。
发明内容
本发明实施例提供一种文本信息处理方法、装置及存储介质,旨在提高对文本信息识别的准确性。
为解决上述技术问题,本发明实施例提供以下技术方案:
一种文本信息处理方法,包括:
接收待识别的文本信息,按照预设的切词规则对所述文本信息进行切词处理,生成至少一个词语;
获取所述至少一个词语对应的参数,其中每个参数标识一个词语;
根据所述参数及预置的训练模型确定所述文本信息的特征信息,所述训练模型由至少一个类型的模板化文本训练而成;
根据所述特征信息确定所述文本信息所属的所述模板化文本的类型。
一种文本信息处理装置,包括:
接收单元,用于接收待识别的文本信息;
第一切词单元,用于按照预设的切词规则对所述文本信息进行切词处理,生成至少一个词语;
参数获取单元,用于获取所述至少一个词语对应的参数,其中每个参数标识一个词语;
确定单元,用于根据所述参数及预置的训练模型确定所述文本信息的特征信息,所述训练模型由至少一个类型的模板化文本训练而成;
识别单元,用于根据所述特征信息识别所述文本信息所属的模板化文本的类型。
可选地,所述处理单元具体用于,获取所述词语集中每个词语在所述每条训练样本中存在的频率,以及包含所述词语的目标训练样本在所述多条训练样本中的逆向文本频率;
根据所述频率及所述逆向文本频率生成所述每个词语对应的目标参数;
根据所述每个词语对应的所述目标参数生成所述参数集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711159103.2/2.html,转载请声明来源钻瓜专利网。