[发明专利]新词发现方法在审
申请号: | 201910519979.6 | 申请日: | 2019-06-17 |
公开(公告)号: | CN110334345A | 公开(公告)日: | 2019-10-15 |
发明(设计)人: | 李慧;王慧慧 | 申请(专利权)人: | 首都师范大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/335 |
代理公司: | 北京荟英捷创知识产权代理事务所(普通合伙) 11726 | 代理人: | 段志慧 |
地址: | 100048 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 过滤 重复模式 邻接 词频 新词发现 词性 语料 邻接信息 内部耦合 判断标准 信息熵 准确率 构建 标注 删除 清洗 集合 筛选 保存 | ||
1.一种新词发现方法,其特征在于,包括以下步骤:
S1:语料清洗并保存;
S2:切分语料并标注词性;
S3:词频过滤和词性过滤;
S4:构建重复模式集合;
S5:重复模式过滤删除;
S6:剩余重复模式即为新词。
2.根据权利要求1所述的新词发现方法,其特征在于,所述语料清洗并保存包括:按照语料清洗规则对实验语料进行清洗,并把语料库中的语料以条为单位按行进行保存。
3.根据权利要求2所述的新词发现方法,其特征在于,所述切分语料并标注词性包括:使用NLPIR工具及用户词典对微博语料进行分词并标注词性,获取词性标注后的语料。
4.根据权利要求3所述的新词发现方法,其特征在于,所述词频过滤和词性过滤包括以下步骤:
S31:统计词性标注后的语料中每个词出现的频率,根据预先设置的词频阈值,把低频词放入过滤词表中,高频词加入到初始候选列表中;
S32:构建过滤词性集合,判断词性标注后的语料中词语词性是否存在于过滤词性集合中,若存在,将其加入到过滤词表中,否则将其加入初始候选列表中。
5.根据权利要求4所述的新词发现方法,其特征在于,所述构建重复模式集合包括:循环遍历初始候选列表L0,取到某个初始候选词,在初始候选词上叠加其右侧词语,如果右侧词语不存在于过滤词表中则叠加,得到重复串1后将其加入重复模式列表R中;继续在重复串1的基础上叠加其右侧的词语,如果右侧词语不存在于过滤词表中则叠加,得到重复串2后将其加入重复模式列表R中;上述叠加过程直到右侧词语遇到标点符号或过滤词表中的词时即停止,进而得到重复模式列表。
6.根据权利要求5所述的新词发现方法,其特征在于,所述重复模式过滤删除包括以下步骤:
S51:使用整合的基础词典对获得的重复模式列表进行过滤,若重复模式存在于基础词典中则过滤删除;
S52:计算重复模式的词频,根据预先设置的词频阈值,对重复模式词频进行过滤,把低于阈值的重复模式删除。
7.根据权利要求6所述的新词发现方法,其特征在于,所述重复模式过滤删除进一步包括以下步骤:
S53:计算重复模式的内部耦合度,根据预先设置的阈值,对重复模式进行过滤,把低于阈值的重复模式删除;
S54:统计重复模式的左邻接字符集和右邻接字符集,根据预先设置的左(右)邻接熵阈值,对于低于左(右)邻接熵阈值的重复模式过滤删除。
S55:统计重复模式的每一个左邻接字符的右邻接字符集和每一个右邻接字符的左邻接字符集,根据预先设置的左(右)邻右(左)平均邻接熵阈值,对于低于平均邻接熵阈值的重复模式过滤删除。
S56:使用中文词语搭配库对上一步获得的重复模式进行过滤,若重复模式存在于中文词语搭配库中则过滤删除。
8.根据权利要求7所述的新词发现方法,其特征在于,其中计算重复模式的内部耦合度包括:穷举重复模式的所有子串,并对子串进行内部耦合度计算,通过公式(1)求得该重复模式内部耦合度的值:
其中,通过内部耦合度来可以衡量词语内部紧密程度,定义如下:对字串w划分为两个分字串所有的可能组合{(w11,w12),(w21,w22)…(wi1,wi2)…(wn1,wn2)},得到的IC(w)称为字串w的内部耦合度;
其中P(w)表示字串w在文本域D出现概率,通过公式(2):
计算,N(w)表示w字串在文本域D中出现的次数,ND表示文本域的总字数。IC值越大,说明字串间的相关程度越高,该词语的内聚性越高;反之,IC值越小,说明字串间的相关程度越低,该词语的内聚性越低。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于首都师范大学,未经首都师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910519979.6/1.html,转载请声明来源钻瓜专利网。