[发明专利]一种数据处理方法和装置在审
申请号: | 201911143298.0 | 申请日: | 2019-11-20 |
公开(公告)号: | CN110909544A | 公开(公告)日: | 2020-03-24 |
发明(设计)人: | 韩庆宏 | 申请(专利权)人: | 北京香侬慧语科技有限责任公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/332 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 柳欣 |
地址: | 100080 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 | ||
1.一种数据处理方法,其特征在于,包括:
获取文本和需要进行共指消解的词语;
根据所述词语生成问题语句,并从所述文本中找出能够回答所述问题语句的字符作为所述词语的共指词;
利用候选文本提取器将所述共指词提取出来,完成所述词语的共指消解。
2.根据权利要求1所述的方法,其特征在于,根据所述词语生成问题语句,并从所述文本中找出能够回答所述问题语句的字符作为所述词语的共指词,包括:
获取问题模板,将所述词语填写到问题模板中,生成与所述词语相关的问题语句;
将所述问题语句与所述文本中的字符进行拼接,得到拼接文本;
利用预训练模型BERT对所述拼接文本进行处理,得到所述拼接文本中各字符的向量表示;
从所述拼接文本中找出能够回答所述问题语句的字符作为所述词语的共指词。
3.根据权利要求2所述的方法,其特征在于,从所述拼接文本中找出能够回答所述问题语句的字符作为所述词语的共指词,包括:
利用机器阅读理解模型,对所述拼接文本中各字符的向量表示进行处理,从所述文本的各字符中找出能够回答所述问题语句的字符作为所述词语的共指词。
4.一种数据处理装置,其特征在于,包括:
获取模块,用于获取文本和需要进行共指消解的词语;
处理模块,用于根据所述词语生成问题语句,并从所述文本中找出能够回答所述问题语句的字符作为所述词语的共指词;
提取模块,用于利用候选文本提取器将所述共指词提取出来,完成所述词语的共指消解。
5.根据权利要求4所述的装置,其特征在于,所述处理模块,具体用于:
获取问题模板,将所述词语填写到问题模板中,生成与所述词语相关的问题语句;
将所述问题语句与所述文本中的字符进行拼接,得到拼接文本;
利用预训练模型BERT对所述拼接文本进行处理,得到所述拼接文本中各字符的向量表示;
从所述拼接文本中找出能够回答所述问题语句的字符作为所述词语的共指词。
6.根据权利要求5所述的装置,其特征在于,所述提取模块,用于从所述拼接文本中找出能够回答所述问题语句的字符作为所述词语的共指词,包括:
利用机器阅读理解模型,对所述拼接文本中各字符的向量表示进行处理,从所述文本的各字符中找出能够回答所述问题语句的字符作为所述词语的共指词。
7.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1-3任一项所述的方法的步骤。
8.一种数据处理装置,其特征在于,所述数据处理装置包括有存储器,处理器以及一个或者一个以上的程序,其中所述一个或者一个以上程序存储于所述存储器中,且经配置以由所述处理器执行权利要求1-3任一项所述的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京香侬慧语科技有限责任公司,未经北京香侬慧语科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911143298.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种即时通信方法、装置、设备及系统
- 下一篇:一种相似图像识别方法及计算设备