[发明专利]一种文本信息处理方法、装置及存储介质有效

申请号：	201711159103.2	申请日：	2017-11-20
公开（公告）号：	CN108304442B	公开（公告）日：	2021-08-31
发明（设计）人：	彭思翔;钱淑钗	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/216;G06F40/289
代理公司：	深圳翼盛智成知识产权事务所(普通合伙) 44300	代理人：	黄威
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本信息处理方法装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种文本信息处理方法、装置及存储介质，其中该方法包括：接收待识别的文本信息，按照预设的切词规则对所述文本信息进行切词处理，生成至少一个词语；获取所述至少一个词语对应的参数，其中每个参数标识一个词语；根据所述参数及预置的训练模型确定所述文本信息的特征信息，所述训练模型由至少一个类型的模板化文本训练而成；根据所述特征信息确定所述文本信息所属的所述模板化文本的类型。由于该方案在整个过程中不需要进行词性分析，因此，可以使得识别结果不会受到词语变种、标点符号、和/或其他字符等干扰信息的干扰，从而提高了对文本信息进行识别的准确性。

技术领域

本发明涉及通信技术领域，具体涉及一种文本信息处理方法、装置及存储介质。

背景技术

文本信息是社交平台的主要信息载体，在需要大量发送类似内容的文本信息时，可以通过模型生成模版化文本并进行发送。当需要对文本信息进行处理时，可以通过对接收到的文本信息进行识别，以便根据识别结果对该文本信息进行相应的处理，例如，对识别出的垃圾信息进行拦截或者屏蔽等，因此，如何准确地识别出垃圾信息等至关重要。

现有技术中，在发送文本信息，如发送电子邮件、即时通讯信息、博客、朋友圈及直播弹幕等场景中，当接收到文本信息时，首先对该文本信息执行切词及词性分析等特征提取的步骤，提取出一个或多个词语，例如，根据主谓宾进行切词，提取出一个或多个词语。然后，将一个或多个词语传给训练好的模型进行预测处理，由于该模型由模版化文本训练而成，因此，进行预测处理后可以识别出该文本信息所属的模版化文本的类型，即识别出该文本信息是通过哪种类型的模型生成的模版化文本。例如，是否属于垃圾信息等。

由于现有技术的方案十分依赖于词性分析的准确度，而对于采用了干扰信息的文本信息而言，其词性分析的准确度均较低，所以，现有方案对文本信息识别的准确性并不高。

发明内容

本发明实施例提供一种文本信息处理方法、装置及存储介质，旨在提高对文本信息识别的准确性。

为解决上述技术问题，本发明实施例提供以下技术方案：

一种文本信息处理方法，包括：

接收待识别的文本信息，按照预设的切词规则对所述文本信息进行切词处理，生成至少一个词语；

获取所述至少一个词语对应的参数，其中每个参数标识一个词语；

根据所述参数及预置的训练模型确定所述文本信息的特征信息，所述训练模型由至少一个类型的模板化文本训练而成；

根据所述特征信息确定所述文本信息所属的所述模板化文本的类型。

一种文本信息处理装置，包括：

接收单元，用于接收待识别的文本信息；

第一切词单元，用于按照预设的切词规则对所述文本信息进行切词处理，生成至少一个词语；