[发明专利]基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质在审

专利信息
申请号: 201911303575.X 申请日: 2019-12-17
公开(公告)号: CN110956043A 公开(公告)日: 2020-04-03
发明(设计)人: 赵强利;蒋艳凰;李根;张少伟;雷鹏;余硕军;万斌;贺依依 申请(专利权)人: 人和未来生物科技(长沙)有限公司
主分类号: G06F40/295 分类号: G06F40/295;G06F40/247
代理公司: 湖南兆弘专利事务所(普通合伙) 43008 代理人: 邹大坚
地址: 410000 湖南省长沙市长沙高*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 别名 标准化 领域 专业 词汇 嵌入 向量 训练 方法 系统 介质
【说明书】:

发明公开了一种基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质,本发明领域专业词汇词嵌入向量训练方法的实施步骤包括:获取领域专业词汇的正规名称及其别名,建立别名表;对训练文献进行别名标准化;使用词嵌入向量计算工具对标准化后的训练文献进行学习得到训练文献中所有单词的词嵌入向量;将别名表中所有别名的词嵌入向量设置为其对应的正规名称的词嵌入向量。本发明能够克服领域专业词汇的词嵌入向量不准确的问题,通过别名标准化的方法将相同含义的词汇统一用标准化的词汇表示,使得专业词汇在文献中出现的次数大大增加,从而大幅度提高了专业词汇的词嵌入向量的准确性,为专业领域的命名实体识别奠定了坚实的基础。

技术领域

本发明涉及自然语言处理技术,具体涉及一种基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质。

背景技术

在自然语言处理中,命名实体识别(Named Entity Recognition,简称NER)能够从专业文献中自动获取特定领域的命名实体,是构建领域基础数据库的一种重要方法。以生物医学领域为例,PubMed文献库提供了近3000万篇的论文摘要和500万篇论文全文,是生物医学领域文本挖掘的重要数据来源。从这些文献中自动获取基因、变异、疾病、药物等实体及其相互间的关系,能够为生物医学领域构建完善的基础数据库。

目前基于深度学习的自然语言理解技术是命名实体识别的重要方法,这种方法需要以文献中单词的词嵌入向量作为深度学习算法的输入。在传统word2vec词嵌入向量的学习中,学习获得的词嵌入向量的准确度与该单词在训练文献中出现的频次密切相关,在训练文献中出现次数越多的单词,经过训练得到的该单词的词嵌入向量越能准确地表述这一单词的词性、语义等信息。实验测试表明,对于在训练文献中出现次数少于10次的单词,获得的词嵌入向量准确度很低,这些低质量的词嵌入向量会大大降低命名实体识别的准确度。

对于诸如生物医学等专业应用领域,通常都存在大量的专业词汇,由于每篇文献讨论的主题都互不相同,每个含义的专业词汇在训练文献中出现的次数都很少。而在获取领域专业知识时,这些词汇常常就是文本挖掘需要识别的命名实体。在实际应用中我们发现,在专业领域内,经常是多种不同的词汇表示同一含义,有的是口语化的词汇,有的是书面术语词汇,有的是不同地域使用不同词汇,这种别名现象进一步降低了专业词汇在文献中出现的次数,导致这些专业词汇的词向量表示不准确。专业词汇的词向量学习不准确,词嵌入向量就无法准确反映出单词的词义及其在句子中的词性、语义等信息,后续基于深度学习的命名实体识别也无法获得准确的识别结果。

发明内容

本发明要解决的技术问题:针对现有技术的上述问题,提供一种基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质,本发明能够克服领域专业词汇的词嵌入向量不准确的问题,通过别名标准化的方法将相同含义的词汇统一用标准化的词汇表示,使得专业词汇在文献中出现的次数大大增加,从而大幅度提高了专业词汇的词嵌入向量的准确性,为专业领域的命名实体识别奠定了坚实的基础。

为了解决上述技术问题,本发明采用的技术方案为:

一种基于别名标准化的领域专业词汇词嵌入向量训练方法,实施步骤包括:

1)获取领域专业词汇的正规名称及其别名,建立别名表;

2)对训练文献进行别名标准化;

3)使用词嵌入向量计算工具对标准化后的训练文献进行学习得到训练文献中所有单词的词嵌入向量。

4)将别名表中所有别名的词嵌入向量设置为其对应的正规名称的词嵌入向量。

可选地,步骤1)之前还包括收集领域专业词汇的正规名称及其别名的步骤。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于人和未来生物科技(长沙)有限公司,未经人和未来生物科技(长沙)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911303575.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top