[发明专利]文本处理方法、装置、设备及存储介质在审
| 申请号: | 202010797003.8 | 申请日: | 2020-08-10 |
| 公开(公告)号: | CN111753498A | 公开(公告)日: | 2020-10-09 |
| 发明(设计)人: | 张映雪;孟凡东;李鹏;周杰 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F40/211;G06F40/289;G06N3/04;G06N3/08 |
| 代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 张所明 |
| 地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 处理 方法 装置 设备 存储 介质 | ||
1.一种文本处理方法,其特征在于,所述方法包括:
获取待处理的目标文本,所述目标文本包括至少三个语句,任一语句包括至少一个词语;
基于所述至少三个语句,构建所述目标文本对应的语句关联关系,所述语句关联关系包括相邻的两个语句之间的关联关系和非相邻的两个语句之间的关联关系;
对于所述至少三个语句中的任一语句,基于所述任一语句中的至少一个词语的初始词语特征,获取所述任一语句的初始基础语句特征;
基于所述至少三个语句的初始基础语句特征和所述目标文本对应的语句关联关系,获取所述目标文本的目标文本特征,对所述目标文本特征进行处理。
2.根据权利要求1所述的方法,其特征在于,所述基于所述至少三个语句的初始基础语句特征和所述目标文本对应的语句关联关系,获取所述目标文本的目标文本特征,包括:
对于所述至少三个语句中的任一语句,基于所述任一语句的初始基础语句特征和所述任一语句中的各个词语的初始词语特征,获取所述任一语句的第一基础语句特征;
对于所述任一语句中的任一词语,基于所述任一语句的初始增强语句特征、所述任一词语的初始词语特征和相关词语的初始词语特征,获取所述任一词语的第一词语特征,所述任一语句的初始增强语句特征为根据所述目标文本对应的语句关联关系对所述任一语句的初始基础语句特征进行更新后得到的,所述相关词语为所述任一语句中与所述任一词语满足相关条件的词语;
基于所述至少三个语句的第一基础语句特征和所述目标文本对应的语句关联关系,获取所述至少三个语句的第一增强语句特征;
基于所述至少三个语句的第一基础语句特征、所述至少三个语句中的各个词语的第一词语特征以及所述至少三个语句的第一增强语句特征,获取所述至少三个语句的目标增强语句特征;
基于所述至少三个语句的目标增强语句特征,获取所述目标文本的目标文本特征。
3.根据权利要求2所述的方法,其特征在于,所述基于所述至少三个语句的目标增强语句特征,获取所述目标文本的目标文本特征,包括:
将所述至少三个语句的目标增强语句特征根据所述至少三个语句在所述目标文本中的排列顺序进行拼接处理,得到所述目标文本的第一拼接文本特征;
对所述第一拼接文本特征进行平均池化处理,得到所述目标文本的第一池化特征;对所述第一拼接文本特征进行最大池化处理,得到所述目标文本的第二池化特征;
将所述第一池化特征和所述第二池化特征进行拼接处理,得到所述目标文本的目标文本特征。
4.根据权利要求2所述的方法,其特征在于,所述基于所述至少三个语句的目标增强语句特征,获取所述目标文本的目标文本特征,包括:
对于所述至少三个语句中的任一语句,将所述任一语句中的各个词语的目标词语特征根据各个词语在所述任一语句中的排列顺序进行拼接处理,得到所述任一语句的拼接语句特征,所述任一语句中的各个词语的目标词语特征基于所述任一语句的第一基础语句特征、所述任一语句中的各个词语的第一词语特征以及所述任一语句的第一增强语句特征获得;
对所述任一语句的拼接语句特征进行指定处理,得到所述任一语句的补充语句特征;
基于所述任一语句的目标增强语句特征和所述任一语句的补充语句特征,确定所述任一语句的参考语句特征;
基于所述至少三个语句的参考语句特征,获取所述目标文本的目标文本特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010797003.8/1.html,转载请声明来源钻瓜专利网。





