[发明专利]构建藏语问答语料库的方法及装置有效
| 申请号: | 201810617055.5 | 申请日: | 2018-06-15 |
| 公开(公告)号: | CN110609995B | 公开(公告)日: | 2023-06-27 |
| 发明(设计)人: | 孙媛;夏天赐 | 申请(专利权)人: | 中央民族大学 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/253;G06F40/30;G06F40/295;G06N3/0442;G06N3/094 |
| 代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 |
| 地址: | 100081 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 构建 藏语 问答 语料库 方法 装置 | ||
1.一种构建藏语问答语料库的方法,其特征在于,所述方法包括:
将一个藏语三元组实体作为中心词实体,获取与所述中心词实体相关的所有三元组;
将所述所有三元组中所有实体,映射成实体与标签的对应关系;所述标签包括浅层标签和深层标签,所述浅层标签与三元组属性不相关,所述深层标签与三元组属性相关;
根据所述对应关系与所述中心词实体,构建藏语问答语料库;所述藏语问答语料库中包含自然语句,所述自然语句包括模板问句和真实问句,所述自然语句的对应规则为人物-(谁),地点-(哪里),时间-(什么时候);
所述根据所述对应关系与所述中心词实体,构建藏语问答语料库,具体包括:
根据所述对应关系与所述中心词实体,构建中心图,所述中心图包含节点和边;所述中心图中的节点包括中心词节点和关联节点,所述边表示两个实体之间的关系;
根据所述中心图和所述中心词实体,进行图查询,构建藏语问答语料库;
所述方法还包括:
计算所述模板问句的向量和所述真实问句的向量;
根据所述模板问句的向量利用神经网络得到所述模板问句的概率分布;
根据所述真实问句的向量和所述模板问句的概率分布,检测所述模板问句是否有效;
当检测到所述模板问句有效后,所述方法还包括:
根据所述藏语问答语料库和所述有效的模板问句,构建四元组,所述四元组的顺序为主体、关系、客体和问题;所述主体和所述客体分别表示所述藏语问答语料库中三元组的第一个实体和第二个实体;所述关系表示两个实体之间的关系;所述问题表示检测有效性后生成的自然问句;
利用TransE算法得到所述藏语问答语料库中实体和关系的向量,得到主体向量表达、关系向量表达和客体向量表达,根据所述主体向量表达、所述关系向量表达和所述客体向量表达组成三元组词向量表达;
根据LSTM神经网络和注意力机制,将所述三元组词向量表达映射成相应的自然问句。
2.一种构建藏语问答语料库的装置,其特征在于,所述装置包括:构建藏语问答语料库模块和优化藏语问答语料库模块;
所述构建藏语问答语料库模块,选择一个三元组实体作为中心词实体,获取与所述中心词实体相关的所有三元组;将所述所有三元组中所有实体,映射成实体与标签的对应关系,根据所述对应关系与所述中心词实体,构建藏语问答语料库;
所述优化藏语问答语料库模块,计算模板问句的向量和真实问句的向量;根据所述模板问句的向量利用神经网络得到所述模板问句的概率分布;根据所述真实问句的向量和所述模板问句的概率分布,检测所述模板问句是否有效;
所述装置还包括扩充藏语问答语料库模块,具体包括:
根据所述构建藏语问答语料库模块生成的藏语问答语料库和所述优化藏语问答语料库模块生成的有效的模板问句,构建四元组,所述四元组的顺序为主体、关系、客体和问题;
利用TransE算法得到所述藏语问答语料库中实体和关系的向量,得到主体向量表达、关系向量表达和客体向量表达,根据所述主体向量表达、所述关系向量表达和所述客体向量表达组成三元组词向量表达;
根据LSTM神经网络和注意力机制,将所述三元组词向量表达映射成相应的自然问句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中央民族大学,未经中央民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810617055.5/1.html,转载请声明来源钻瓜专利网。





