首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种基于神经网络的多义词识别方法有效

申请号：	201910956103.8	申请日：	2019-10-10
公开（公告）号：	CN110717015B	公开（公告）日：	2021-03-26
发明（设计）人：	姚念民;郭顺	申请（专利权）人：	大连理工大学
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/35;G06F16/36
代理公司：	大连理工大学专利中心 21200	代理人：	梅洪玉;刘秋彤
地址：	116024 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于神经网络多义词识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于神经网络的多义词识别方法，其特征在于，包括以下步骤：

第一步，预处理语料

1.1)选择自然语言处理任务中的语料库，删除文本中的特殊字符和不可识别字符；

第二步，预训练词表示

2.1)对预处理后的语料使用词向量训练工具预训练词向量；所述的词向量训练工具包括word2vec、doc2vecC、以及基于它们的改进模型；

2.2)预训练结束后，保存词-词向量映射表；

第三步，提取上下文

3.1)定义一个新的上下文窗口，并重新扫描整个语料库，提取每个词在不同句子中的上下文；

3.2)统计每个词对应的上下文中的词，并删除重复的词，为每个词生成其对应的上下文词典；该词典的每一行记录的是一个词的上下文中出现的词的集合；

3.3)将步骤3.2)中的每个上下文词典与相应的词作映射，构建词-上下文词典映射表；

第四步，识别多义词

4.1)加载步骤3.3)得到的词-上下文词典映射表，对映射表中每个词对应的上下文分别进行k-means聚类，k≥2；聚类操作前，上下文中的词需要按照步骤2.2)得到的词-词向量映射表转换成相应的词向量形式；聚类操作后，得到上下文词典中每个词所属的类别，以及每一个类别的中心向量；

4.2)使用聚类评估算法对映射表中每个词的上下文的聚类结果进行评估；聚类评估算法需要以参与聚类的词表示和词所属的类别作为输入，输出为一个评估值；当一个词的上下文的评估结果大于预先定义的阈值，则判定该词为多义词；

4.3)输出多义词，并使用该多义词在步骤4.1)中得到的每个类别的中心向量作为不同词义的词表示；

第五步，多义词表示的选择

5.1)重新扫描语料库中的词，一旦目标词出现在多义词表中，就需要为该多义词选择符合当前上下文语义的词表示；

5.2)使用上下文窗口获取该多义词的上下文；

5.3)从步骤2.2)中的词-词向量映射表中获取该上下文中词的词向量，并计算他们的算数平均作为上下文向量；

5.4)分别计算该词的上下文向量和其不同词义的词表示之间的距离；

5.5)最终选择与该上下文向量距离最近的多义词向量作为该多义词在当前上下文中的词表示。

2.根据权利要求1所述的一种基于神经网络的多义词识别方法，其特征在于，步骤1.1)所述的语料库为与文本表示相关的任意语料库。

3.根据权利要求1或2所述的一种基于神经网络的多义词识别方法，其特征在于，步骤3.1)所述的新的上下文窗口与word2vec中的上下文窗口相同，用于定义提取上下文的范围；步骤3.1)定义的新的上下文窗口尺寸不能大于步骤2.1)中预训练词表示时所定义的窗口尺寸。

4.根据权利要求1或2所述的一种基于神经网络的多义词识别方法，其特征在于，步骤4.2)所述的聚类评估算法包括轮廓系数、CH指标。

5.根据权利要求3所述的一种基于神经网络的多义词识别方法，其特征在于，步骤4.2)所述的聚类评估算法包括轮廓系数、CH指标。

6.根据权利要求1、2或5所述的一种基于神经网络的多义词识别方法，其特征在于，步骤5.2)所述的上下文窗口与步骤3.1)定义的上下文窗口保持一致；步骤5.4)所述的距离的度量方式采取欧氏距离或余弦距离。

7.根据权利要求3所述的一种基于神经网络的多义词识别方法，其特征在于，步骤5.2)所述的上下文窗口与步骤3.1)定义的上下文窗口保持一致；步骤5.4)所述的距离的度量方式采取欧氏距离或余弦距离。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连理工大学，未经大连理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910956103.8/1.html，转载请声明来源钻瓜专利网。

上一篇：一种本体知识库动态构建方法
下一篇：一种融合技术领域确定方法、装置、设备及存储介质

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top