[发明专利]一种基于神经网络的多义词识别方法有效
| 申请号: | 201910956103.8 | 申请日: | 2019-10-10 |
| 公开(公告)号: | CN110717015B | 公开(公告)日: | 2021-03-26 |
| 发明(设计)人: | 姚念民;郭顺 | 申请(专利权)人: | 大连理工大学 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/36 |
| 代理公司: | 大连理工大学专利中心 21200 | 代理人: | 梅洪玉;刘秋彤 |
| 地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明提供一种基于神经网络的多义词识别方法,属于数据挖掘和自然语言处理领域。该方法主要利用了文本中上下文的语义来识别多义词并生成多义词表示,包括五个步骤:1)预处理语料;2)预训练词表示;3)提取上下文;4)识别多义词;5)多义词表示的选择。本发明充分利用了词向量的优良特性,通过词的上下文语义差异来自动标识出多义词。同时,在具体的任务中,该发明也提供了通过多义词的上下文来选择多义词表示的方法,不仅提升了文本表示的质量,也提高了任务的准确率。此外,本发明的实施流程较为简便,具有良好的适用性。 | ||
| 搜索关键词: | 一种 基于 神经网络 多义词 识别 方法 | ||
【主权项】:
1.一种基于神经网络的多义词识别方法,其特征在于,包括以下步骤:/n第一步,预处理语料/n1.1)选择自然语言处理任务中的语料库,删除文本中的特殊字符和不可识别字符;/n第二步,预训练词表示/n2.1)对预处理后的语料使用词向量训练工具预训练词向量;/n2.2)预训练结束后,保存词-词向量映射表;/n第三步,提取上下文/n3.1)定义一个新的上下文窗口,并重新扫描整个语料库,提取每个词在不同句子中的上下文;/n3.2)统计每个词对应的上下文中的词,并删除重复的词,为每个词生成其对应的上下文词典;该词典的每一行记录的是一个词的上下文中出现的词的集合;/n3.3)将步骤3.2)中的每个上下文词典与相应的词作映射,构建词-上下文词典映射表;/n第四步,识别多义词/n4.1)加载步骤3.3)得到的词-上下文词典映射表,对映射表中每个词对应的上下文分别进行k-means聚类,k≥2;聚类操作前,上下文中的词需要按照步骤2.2)得到的词-词向量映射表转换成相应的词向量形式;聚类操作后,得到上下文词典中每个词所属的类别,以及每一个类别的中心向量;/n4.2)使用聚类评估算法对映射表中每个词的上下文的聚类结果进行评估;聚类评估算法需要以参与聚类的词表示和词所属的类别作为输入,输出为一个评估值;当一个词的上下文的评估结果大于预先定义的阈值,则判定该词为多义词;/n4.3)输出多义词,并使用该多义词在步骤4.1)中得到的每个类别的中心向量作为不同词义的词表示;/n第五步,多义词表示的选择/n5.1)重新扫描语料库中的词,一旦目标词出现在多义词表中,就需要为该多义词选择符合当前上下文语义的词表示;/n5.2)使用上下文窗口获取该多义词的上下文;/n5.3)从步骤2.2)中的词-词向量映射表中获取该上下文中词的词向量,并计算他们的算数平均作为上下文向量;/n5.4)分别计算该词的上下文向量和其不同词义的词表示之间的距离;/n5.5)最终选择与该上下文向量距离最近的多义词向量作为该多义词在当前上下文中的词表示。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910956103.8/,转载请声明来源钻瓜专利网。





