[发明专利]海量文本中基于词向量表征的新词发现方法及系统在审
申请号: | 201710344343.3 | 申请日: | 2017-05-16 |
公开(公告)号: | CN107168953A | 公开(公告)日: | 2017-09-15 |
发明(设计)人: | 袁华;钱宇 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/02 |
代理公司: | 四川省成都市天策商标专利事务所51213 | 代理人: | 卞涛 |
地址: | 610000 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 海量 文本 基于 向量 表征 新词 发现 方法 系统 | ||
1.一种海量文本中基于词向量表征的新词发现方法,其特征在于包括:
对新词发现任务的语料进行预处理,所述预处理至少包括短句切分和分词;
对预处理后的语料进行n-gram词串挖掘,以得到该语料中的n-gram候选词串;
设置词向量,并根据n-gram候选词串中的词与词对应的词向量之间的相似性进行剪枝,得到新词。
2.根据权利要求1所述的海量文本中基于词向量表征的新词发现方法,其特征在于所述对预处理后的语料进行n-gram词串挖掘以得到该语料中的n-gram候选词串的方法包括:
从预处理后的语料中查找所有出现频率大于预设频率阈值的二元词串,并记录各个二元词串的位置索引;
二元词串从其位置索引开始进行左右扩张直到达到停止条件,得到n-gram候选词串。
3.根据权利要求2所述的海量文本中基于词向量表征的新词发现方法,其特征在于所述停止条件为左右扩张后得到的词串频率小于预设频率阈值或者左右扩张后得到的词串为停用词。
4.根据权利要1所述的海量文本中基于词向量表征的新词发现方法,其特征在于所述词向量基于外部语料训练得到,所述基于外部语料训练词向量的方法包括:
对外部语料进行分词处理;
采用神经网络训练语言模型对分词处理后的外部语料进行训练,得到词向量。
5.根据权利要求4所述的海量文本中基于词向量表征的新词发现方法,其特征在于所述神经网络训练语言模型为Skip-gram或CBOW模型。
6.根据权利要求1至5中任一所述的海量文本中基于词向量表征的新词发现方法,其特征在于所述根据n-gram候选词串中的词与词对应的词向量之间的相似性进行剪枝的方法包括:判断n-gram候选词串中的词与词对应的词向量之间的余弦相似性是否大于预设的余弦相似性阈值,如果满足该条件则将这两个词作为一个新词进行保存。
7.一种海量文本中基于词向量表征的新词发现系统,其特征在于包括:
预处理模块,其被配置成对新词发现任务的语料进行预处理,所述预处理至少包括短句切分和分词;
n-gram词串挖掘模块,其被配置成对预处理后的语料进行n-gram词串挖掘,以得到该语料中的n-gram候选词串;
词向量设置模块,其被配置成设置词向量;
剪枝模块,其被配置成根据n-gram候选词串中的词与词对应的词向量之间的相似性进行剪枝,得到新词。
8.根据权利要求7所述的海量文本中基于词向量表征的新词发现系统,其特征在于所述n-gram词串挖掘模块具体被配置成:
从预处理后的语料中查找所有出现频率大于预设频率阈值的二元词串,并记录各个二元词串的位置索引;
二元词串从其位置索引开始进行左右扩张直到达到停止条件,得到n-gram候选词串。
9.根据权利要求7所述的海量文本中基于词向量表征的新词发现系统,其特征在于所述词向量设置模块具体被配置成:对外部语料进行分词处理;采用神经网络训练语言模型对分词处理后的外部语料进行训练,得到词向量。
10.根据权利要求7或9所述的海量文本中基于词向量表征的新词发现系统,其特征在于所述剪枝模块具体被配置成:判断n-gram候选词串中的词与词对应的词向量之间的余弦相似性是否大于预设的余弦相似性阈值,如果满足该条件则将这两个词作为一个新词进行保存。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710344343.3/1.html,转载请声明来源钻瓜专利网。