[发明专利]构建藏语问答语料库的方法及装置有效
| 申请号: | 201810617055.5 | 申请日: | 2018-06-15 |
| 公开(公告)号: | CN110609995B | 公开(公告)日: | 2023-06-27 |
| 发明(设计)人: | 孙媛;夏天赐 | 申请(专利权)人: | 中央民族大学 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/253;G06F40/30;G06F40/295;G06N3/0442;G06N3/094 |
| 代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 |
| 地址: | 100081 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 构建 藏语 问答 语料库 方法 装置 | ||
本发明提供了一种构建藏语问答语料库的方法及装置,属于大数据处理领域,本发明提供的方法包括:选择一个藏语三元组实体作为中心词实体,获取与中心词实体相关的所有三元组;将所有三元组中所有实体,映射成实体与标签的对应关系,根据对应关系与中心词实体,构建藏语问答语料库。本方案通过找到与藏语三元组实体相关的所有三元组,并映射成实体与标签的对应关系,构建出藏语问答语料库,克服了人工参与耗时、费力的缺陷。
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种构建藏语问答语料库的方法及设备。
背景技术
问答系统是近年来自然语言处理领域一个非常重要的研究热点,它允许用户以自然语言的方式进行提问,然后返回给用户一个相对准确地、满意地答案。
相比中英文丰富的问答系统,藏语问答预料数据特别少,类型单一,且汉藏、英藏翻译技术的不足,很难将中英问答语料库直接应用到藏语问答语料库中,因此,目前没有构建大规模的藏语问答语料库的方法。
发明内容
本发明实施例提出了一种构建藏语问答语料库的方法及设备,旨在利用已有三元组实体提供构建藏语问答语料库的方案,并对构建的藏语问答语料库中的自然问句进行优化,根据藏语知识库以及优化的自然问句,实现藏语问答语料库的扩充。
第一方面,本发明实施例提供了一种构建藏语问答语料库的方法,所述方法包括:
将一个三元组实体作为中心词实体,获取与所述中心词实体相关的所有三元组;
将所述所有三元组中所有实体,映射成实体与标签的对应关系;
根据所述对应关系与所述中心词实体,构建藏语问答语料库。
另一方面,本发明实施例提供了一种构建藏语问答语料库的装置,所述装置包括:构建藏语问答语料库模块和优化藏语问答语料库模块;
所述构建藏语问答语料库模块,选择一个三元组实体作为中心词实体,获取与所述中心词实体相关的所有三元组;将所述所有三元组中所有实体,映射成实体与标签的对应关系,根据所述对应关系与所述中心词实体,构建藏语问答语料库;
所述优化藏语问答语料库模块,计算所述模板问句的向量和所述真实问句的向量;根据所述模板问句的向量利用神经网络得到所述模板问句的概率分布;根据所述真实问句的向量和所述模板问句的概率分布,检测所述模板问句是否有效。
有益效果如下:
本发明主要利用已有藏语知识库中实体-关系-实体三元组,构建出藏语问答语料库,进而生成自然问句。另外,通过对抗神经网络进行修正和优化问答预料库中的自然问句语法和语义结构,然后结合知识库和自然问句,训练端到端神经网络模型,实现藏语问答语料库的自动扩充。
附图说明
下面将参照附图描述本发明的具体实施例,其中:
图1示出了本发明实施例一中构建藏语问答语料库的方法流程示意图;
图2示出了本发明实施例二中构建藏语问答语料库的逻辑示意图;
图3示出了本发明实施例二中对构建的构建藏语问答语料库进行优化的逻辑示意图;
图4示出了本发明实施例二中对构建的构建藏语问答语料库进行优化的方法流程图;
图5示出了本发明实施例三中对藏语问答语料库进行扩充的逻辑示意图。
具体实施方式
为了使本发明的技术方案及优点更加清楚明白,以下结合附图对本发明的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本发明的一部分实施例,而不是所有实施例的穷举。并且在不冲突的情况下,本说明中的实施例及实施例中的特征可以互相结合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中央民族大学,未经中央民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810617055.5/2.html,转载请声明来源钻瓜专利网。





