[发明专利]基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质在审
| 申请号: | 201911303575.X | 申请日: | 2019-12-17 |
| 公开(公告)号: | CN110956043A | 公开(公告)日: | 2020-04-03 |
| 发明(设计)人: | 赵强利;蒋艳凰;李根;张少伟;雷鹏;余硕军;万斌;贺依依 | 申请(专利权)人: | 人和未来生物科技(长沙)有限公司 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/247 |
| 代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 邹大坚 |
| 地址: | 410000 湖南省长沙市长沙高*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 别名 标准化 领域 专业 词汇 嵌入 向量 训练 方法 系统 介质 | ||
1.一种基于别名标准化的领域专业词汇词嵌入向量训练方法,其特征在于实施步骤包括:
1)获取领域专业词汇的正规名称及其别名,建立别名表;
2)对训练文献进行别名标准化;
3)使用词嵌入向量计算工具对标准化后的训练文献进行学习得到训练文献中所有单词的词嵌入向量;
4)将别名表中所有别名的词嵌入向量设置为其对应的正规名称的词嵌入向量。
2.根据权利要求1所述的基于别名标准化的领域专业词汇词嵌入向量训练方法,其特征在于,步骤1)之前还包括收集领域专业词汇的正规名称及其别名的步骤。
3.根据权利要求2所述的基于别名标准化的领域专业词汇词嵌入向量训练方法,其特征在于,所述收集领域专业词汇的正规名称及其别名的步骤包括:通过领域专业数据库,对专业词汇的正规名和别名进行收集整理形成专业词汇表,所述专业词汇表中的每一项包括一个正规名称和与该正规名称具有相同含义的所有别名的列表。
4.根据权利要求1所述的基于别名标准化的领域专业词汇词嵌入向量训练方法,其特征在于,步骤2)对训练文献进行别名标准化具体是指对于所有用于词向量学习的训练文档,查找训练文献中的所有领域专业词汇的别名,并将别名替换为对应的正规名称。
5.根据权利要求1所述的基于别名标准化的领域专业词汇词嵌入向量训练方法,其特征在于,步骤3)中的词嵌入向量计算工具为word2vec。
6.一种基于别名标准化的领域专业词汇词嵌入向量训练系统,其特征在于包括:
映射输入程序单元,用于获取领域专业词汇的正规名称及其别名,建立别名表;
别名标准化程序单元,用于对训练文献进行别名标准化;
词嵌入向量学习程序单元,用于使用词嵌入向量计算工具对标准化后的训练文献进行学习得到训练文献中所有单词的词嵌入向量;
别名词嵌入向量修改程序单元,用于将别名表中所有别名的词嵌入向量设置为其对应的正规名称的词嵌入向量。
7.一种基于别名标准化的领域专业词汇词嵌入向量训练系统,包括计算机设备,其特征在于,该计算机设备被编程或配置以执行权利要求1~5中任意一项所述基于别名标准化的领域专业词汇词嵌入向量训练方法的步骤。
8.一种基于别名标准化的领域专业词汇词嵌入向量训练系统,包括计算机设备,其特征在于,该计算机设备至少包括微处理器和存储器,且该存储器上存储有被编程或配置以执行权利要求1~5中任意一项所述基于别名标准化的领域专业词汇词嵌入向量训练方法的计算机程序。
9.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有被编程或配置以执行权利要求1~5中任意一项所述基于别名标准化的领域专业词汇词嵌入向量训练方法的计算机程序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于人和未来生物科技(长沙)有限公司,未经人和未来生物科技(长沙)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911303575.X/1.html,转载请声明来源钻瓜专利网。





