[发明专利]一种基于神经网络的多义词识别方法有效
| 申请号: | 201910956103.8 | 申请日: | 2019-10-10 |
| 公开(公告)号: | CN110717015B | 公开(公告)日: | 2021-03-26 |
| 发明(设计)人: | 姚念民;郭顺 | 申请(专利权)人: | 大连理工大学 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/36 |
| 代理公司: | 大连理工大学专利中心 21200 | 代理人: | 梅洪玉;刘秋彤 |
| 地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 神经网络 多义词 识别 方法 | ||
1.一种基于神经网络的多义词识别方法,其特征在于,包括以下步骤:
第一步,预处理语料
1.1)选择自然语言处理任务中的语料库,删除文本中的特殊字符和不可识别字符;
第二步,预训练词表示
2.1)对预处理后的语料使用词向量训练工具预训练词向量;所述的词向量训练工具包括word2vec、doc2vecC、以及基于它们的改进模型;
2.2)预训练结束后,保存词-词向量映射表;
第三步,提取上下文
3.1)定义一个新的上下文窗口,并重新扫描整个语料库,提取每个词在不同句子中的上下文;
3.2)统计每个词对应的上下文中的词,并删除重复的词,为每个词生成其对应的上下文词典;该词典的每一行记录的是一个词的上下文中出现的词的集合;
3.3)将步骤3.2)中的每个上下文词典与相应的词作映射,构建词-上下文词典映射表;
第四步,识别多义词
4.1)加载步骤3.3)得到的词-上下文词典映射表,对映射表中每个词对应的上下文分别进行k-means聚类,k≥2;聚类操作前,上下文中的词需要按照步骤2.2)得到的词-词向量映射表转换成相应的词向量形式;聚类操作后,得到上下文词典中每个词所属的类别,以及每一个类别的中心向量;
4.2)使用聚类评估算法对映射表中每个词的上下文的聚类结果进行评估;聚类评估算法需要以参与聚类的词表示和词所属的类别作为输入,输出为一个评估值;当一个词的上下文的评估结果大于预先定义的阈值,则判定该词为多义词;
4.3)输出多义词,并使用该多义词在步骤4.1)中得到的每个类别的中心向量作为不同词义的词表示;
第五步,多义词表示的选择
5.1)重新扫描语料库中的词,一旦目标词出现在多义词表中,就需要为该多义词选择符合当前上下文语义的词表示;
5.2)使用上下文窗口获取该多义词的上下文;
5.3)从步骤2.2)中的词-词向量映射表中获取该上下文中词的词向量,并计算他们的算数平均作为上下文向量;
5.4)分别计算该词的上下文向量和其不同词义的词表示之间的距离;
5.5)最终选择与该上下文向量距离最近的多义词向量作为该多义词在当前上下文中的词表示。
2.根据权利要求1所述的一种基于神经网络的多义词识别方法,其特征在于,步骤1.1)所述的语料库为与文本表示相关的任意语料库。
3.根据权利要求1或2所述的一种基于神经网络的多义词识别方法,其特征在于,步骤3.1)所述的新的上下文窗口与word2vec中的上下文窗口相同,用于定义提取上下文的范围;步骤3.1)定义的新的上下文窗口尺寸不能大于步骤2.1)中预训练词表示时所定义的窗口尺寸。
4.根据权利要求1或2所述的一种基于神经网络的多义词识别方法,其特征在于,步骤4.2)所述的聚类评估算法包括轮廓系数、CH指标。
5.根据权利要求3所述的一种基于神经网络的多义词识别方法,其特征在于,步骤4.2)所述的聚类评估算法包括轮廓系数、CH指标。
6.根据权利要求1、2或5所述的一种基于神经网络的多义词识别方法,其特征在于,步骤5.2)所述的上下文窗口与步骤3.1)定义的上下文窗口保持一致;步骤5.4)所述的距离的度量方式采取欧氏距离或余弦距离。
7.根据权利要求3所述的一种基于神经网络的多义词识别方法,其特征在于,步骤5.2)所述的上下文窗口与步骤3.1)定义的上下文窗口保持一致;步骤5.4)所述的距离的度量方式采取欧氏距离或余弦距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910956103.8/1.html,转载请声明来源钻瓜专利网。





