[发明专利]一种数据处理方法和装置在审
申请号: | 201911143298.0 | 申请日: | 2019-11-20 |
公开(公告)号: | CN110909544A | 公开(公告)日: | 2020-03-24 |
发明(设计)人: | 韩庆宏 | 申请(专利权)人: | 北京香侬慧语科技有限责任公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/332 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 柳欣 |
地址: | 100080 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 | ||
本发明提供了一种数据处理方法和装置,其中,该方法包括:获取文本和需要进行共指消解的词语;根据所述词语生成问题语句,并从所述文本中找出能够回答所述问题语句的字符作为所述词语的共指词;利用候选文本提取器将所述共指词提取出来,完成所述词语的共指消解。通过本发明实施例提供的数据处理方法和装置,能够以问答的方式从文本中找出词语的共指词,大大提高了共指消解的准确率。
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种数据处理方法和装置。
背景技术
目前,为了避免重复,习惯在文本中使用代词、称谓和缩略语来指代前面提到的词语。例如,在文本开始处会写“哈尔滨工业大学”,后面可能会说“哈工大”、“工大”等,还会提到“这所大学”、“她”等;这种现象称为共指现象。对于计算机进行自然语言处理来说,从文本中识别出具有共指现象的词语是非常困难的。计算机可以对文本进行共指消解,才可以从文本中识别出具有共指现象的词语。所谓共指消解,就是从文本中找到同一词语的所有指代词。
相关技术中,共指消解方法往往是基于元组的相似性比较来获取结果。导致共指消解的准确率低。
发明内容
为解决上述问题,本发明实施例的目的在于提供一种数据处理方法和装置。
第一方面,本发明实施例提供了一种数据处理方法,包括:
获取文本和需要进行共指消解的词语;
根据所述词语生成问题语句,并从所述文本中找出能够回答所述问题语句的字符作为所述词语的共指词;
利用候选文本提取器将所述共指词提取出来,完成所述词语的共指消解。
第二方面,本发明实施例还提供了一种数据处理装置,包括:
获取模块,用于获取文本和需要进行共指消解的词语;
处理模块,用于根据所述词语生成问题语句,并从所述文本中找出能够回答所述问题语句的字符作为所述词语的共指词;
提取模块,用于利用候选文本提取器将所述共指词提取出来,完成所述词语的共指消解。
第三方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面所述的方法的步骤。
第四方面,本发明实施例还提供了一种数据处理装置,所述数据处理装置包括有存储器,处理器以及一个或者一个以上的程序,其中所述一个或者一个以上程序存储于所述存储器中,且经配置以由所述处理器执行上述第一方面所述的方法的步骤。
本发明实施例上述第一方面至第四方面提供的方案中,根据获取到的词语生成问题语句,并从所述文本中找出能够回答所述问题语句的字符作为所述词语的共指词,与相关技术中基于元组的相似性比较来进行共指消解的方式相比,可以通过词语生成的问题语句,从所述文本中找出能够回答所述问题语句的字符作为所述词语的共指词,以问答的方式从文本中找出词语的共指词,大大提高了共指消解的准确率。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例1所提供的一种数据处理方法的流程图;
图2示出了本发明实施例2所提供的一种数据处理装置的结构示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京香侬慧语科技有限责任公司,未经北京香侬慧语科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911143298.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种即时通信方法、装置、设备及系统
- 下一篇:一种相似图像识别方法及计算设备