[发明专利]文本处理方法、用于短文本的链指方法、装置及存储介质有效
申请号: | 202210612667.1 | 申请日: | 2022-05-31 |
公开(公告)号: | CN114818736B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 林泽南;赵岷;傅瑜;张国鑫;秦华鹏;吕雅娟 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F18/22 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 用于 装置 存储 介质 | ||
1.一种文本处理方法,所述方法包括:
为歧义词的每个词义项构建文本数据集,其中,所述歧义词对应多个词义项;
对包含所述歧义词的短文本进行语义解析,得到多个候选消歧词,其中,所述消岐词用于将所述歧义词指向特定的词义项;
将每个候选消歧词分别与每个词义项的文本数据集进行匹配;
响应于一个候选消歧词仅与一个词义项的文本数据集匹配成功,将该候选消歧作为相匹配的词义项的目标消歧词;
将包含目标消歧词的短文本,保存至所述相匹配的词义项的消歧文本集。
2.根据权利要求1所述的方法,还包括:
对于每个词义项的消歧文本集分别执行向量压缩操作,得到消歧文本集的压缩平均向量,作为对应词义项的消歧向量;
其中,所述向量压缩操作包括:
将文本集中的每个短文本进行向量转换,得到多个文本向量;
对所述多个文本向量进行加权拟合,得到一个压缩平均向量。
3.根据权利要求2所述的方法,还包括:
为所述歧义词配置无词义文本集,其中,所述无词义文本集中包括多个无词义短文本,所述无词义短文本中包含所述歧义词且不包含所述目标消歧词;
对无词义文本集执行所述向量压缩操作,并将得到的压缩平均向量作为无词义文本集的消歧向量。
4.根据权利要求1所述的方法,还包括:
从一个词义项的文本数据集中,获取关键文本信息;
从所述关键文本信息中提取扩展消歧词,并将所述扩展消歧词与所述歧义词进行拼接,得到拼接短文本;
将所述拼接短文本保存至该词义项的消歧文本集。
5.根据权利要求1-4任一项所述的方法,其中,所述为歧义词的每个词义项构建文本数据集,包括:
生成初始文本资源集;
从所述初始文本资源集中,分别获取与所述歧义词的各个词义项匹配的文本资源,得到每个词义项的文本数据集。
6.根据权利要求5所述的方法,其中,所述对包含所述歧义词的短文本进行文本解析,得到多个候选消歧词包括:
从所述初始文本资源集中,筛选出包含所述歧义词的短文本;
对包含所述歧义词的短文本进行文本解析,得到所述多个候选消歧词。
7.一种用于短文本的链指方法,所述方法包括:
获取待处理的短文本,并从所述待处理的短文本中确定出目标歧义词;
获取所述目标歧义词的多个词义项,以及每个词义项的消歧文本集,其中,所述消歧文本集是通过如权利要求1-6任一项所述的文本处理方法得到的;
将所述待处理的短文本分别与每个词义项的消歧文本集进行匹配;
基于匹配结果,为所述目标歧义词确定链指结果。
8.根据权利要求7所述的方法,其中,所述将所述待处理的短文本分别与每个词义项的消歧文本集进行匹配包括:
获取所述待处理的短文本的压缩平均向量,以及每个词义项的消歧向量;
将所述待处理的短文本的压缩平均向量,分别与每个词义项的消歧向量进行匹配。
9.根据权利要求8所述的方法,还包括:
获取所述目标歧义词的无词义文本集的消歧向量;
将所述待处理的短文本的压缩平均向量,与所述无词义文本集的消歧向量进行匹配;
所述基于匹配结果,为所述目标歧义词确定链指结果包括:
判断所述无词义文本集的匹配度是否优于全部所述消歧文本集的匹配度;
若否,将匹配度最高的消歧文本集对应的词义项,确定为所述目标歧义词的链指结果;
若是,按照预设规则从所述多个词义项中选出一个词义项,作为所述目标歧义词的链指结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210612667.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种海洋缆绳专用涤纶工业丝及其制备方法
- 下一篇:阶梯型钢索光伏支架