[发明专利]文本处理方法及装置在审

专利信息
申请号: 202110236391.7 申请日: 2021-03-03
公开(公告)号: CN113705232A 公开(公告)日: 2021-11-26
发明(设计)人: 刘绍腾;杨天舒 申请(专利权)人: 腾讯科技(深圳)有限公司
主分类号: G06F40/295 分类号: G06F40/295;G06F40/30;G06F40/126;G06F40/194;G06F16/35
代理公司: 深圳市隆天联鼎知识产权代理有限公司 44232 代理人: 叶虹
地址: 518057 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 处理 方法 装置
【权利要求书】:

1.一种文本处理方法,其特征在于,包括:

对文本进行分句检测以获得一个或多个分句;

当所述文本包括多个分句时,对所述多个分句进行命名实体识别,得到所述多个分句中包含的命名实体;

根据所述多个分句中包含的命名实体确定所述多个分句中每个分句对的不同分句之间是否具有语义联系,其中,每个所述分句对由所述多个分句中的任意两个分句组成;

当所述多个分句中存在至少预定数量个目标分句时,判定所述文本为异常文本,所述至少预定数量个目标分句中任意两个分句组成的分句对均为不具有语义联系的分句对。

2.根据权利要求1所述的文本处理方法,其特征在于,所述根据所述多个分句中包含的命名实体确定所述多个分句中每个分句对的不同分句之间是否具有语义联系,包括:

针对所述多个分句中每个分句对,从所述分句对的不同分句中分别选取一个命名实体组成命名实体对,并获取每个命名实体对的两个命名实体之间的余弦相似度;

将两个命名实体之间的余弦相似度小于预设值的命名实体对确定为不具有语义联系的命名实体对;

当所述分句对所包括的不具有语义联系的命名实体对的数量超过第一数量时,判定所述分句对的不同分句之间不具有语义联系。

3.根据权利要求1所述的文本处理方法,其特征在于,所述根据所述多个分句中包含的命名实体确定所述多个分句中每个分句对的不同分句之间是否具有语义联系,包括:

针对所述多个分句中每个分句对,从所述分句对的不同分句中分别选取一个命名实体组成命名实体对;

将所包括的两个命名实体互不相同的命名实体对确定为不具有语义联系的命名实体对;

当所述分句对所包括的不具有语义联系的命名实体对的数量超过第二数量时,判定所述分句对的不同分句之间不具有语义联系。

4.根据权利要求1所述的文本处理方法,其特征在于,所述当所述多个分句中存在至少预定数量个目标分句时,判定所述文本为异常文本,包括:

当所述文本中包括的多个分句的数量超过第三数量,并且所述多个分句中存在至少预定数量个目标分句时,判定所述文本为异常文本。

5.根据权利要求1所述的文本处理方法,其特征在于,所述对所述多个分句进行命名实体识别,得到所述多个分句中包含的命名实体,包括:

针对所述多个分句中的每个分句,提取所述分句中各个字符的字符特征;

根据所述分句的字符特征对所述分句的字符进行编码;

根据所述分句的字符的编码结果按照字符类别对所述字符进行分类,所述字符类别包括命名实体首字符、命名实体次字符和非命名实体字符;

根据所述分句的字符的分类结果输出所述分句中包含的命名实体。

6.根据权利要求5所述的文本处理方法,其特征在于,所述字符特征包括特征向量,所述提取所述分句中各个字符的字符特征,包括:

去除所述分句的标点符号;

对所述分句进行特征提取,得到所述分句中各个字符的特征向量。

7.根据权利要求5所述的文本处理方法,其特征在于,所述根据所述分句的字符特征对所述分句的字符进行编码,包括:

采用所述分句的正向语序对所述分句的各个字符的字符特征进行编码以得到所述字符的正向编码;

采用所述分句的负向语序对所述分句的各个字符的字符特征进行编码以得到所述字符的负向编码;

整合所述字符的所述正向编码与所述负向编码以得到所述字符的整合编码。

8.根据权利要求5所述的文本处理方法,其特征在于,所述根据所述分句的字符的分类结果输出所述分句中包含的命名实体,包括:

根据所述分句的字符的分类结果得到所述分句中包含的命名实体;

将命名实体类型为目标命名实体类型的目标命名实体输出,其中,所述目标命名实体类型包括姓名、地名、组织名中的一种或多种。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110236391.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top