[发明专利]一种基于统计量与相似性的网络新词发现方法及系统有效
申请号: | 202110235703.2 | 申请日: | 2021-03-03 |
公开(公告)号: | CN113033183B | 公开(公告)日: | 2023-10-27 |
发明(设计)人: | 陈莉;张爽;李铮 | 申请(专利权)人: | 西北大学 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/289;G06F40/253;G06F40/30;G06F18/22 |
代理公司: | 西安恒泰知识产权代理事务所 61216 | 代理人: | 王芳 |
地址: | 710069 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 统计 相似性 网络 新词 发现 方法 系统 | ||
1.一种基于统计量与相似性的网络新词发现方法,其特征在于,包括如下步骤:
步骤1:获取文本段落,对文本段落进行预处理,获得候选句子集合,获取旧词,并将旧词所在句子作为常用句子,获得常用句子集合;
步骤2:将候选句子集中的每个候选句子依次切分为单字,将切分后的得到的所有单字作为单字词集;
步骤3:计算步骤2得到的单字词集中每个单字的词频,将词频大于词频阈值的所有单字作为候选单字集合;
步骤4:将步骤2得到的单字词集中的每个单字词进行向右扩展得到候选多字词集合,将候选单字集合和候选多字词集合进行合并,得到候选新词集合;
其中,对每个单字词进行向右扩展包括如下子步骤:
步骤4.1:在单字词集选定单字词,将该单字词与该单字词的右邻接字结合为候选多字词,计算候选多字词的增强互信息值;
若候选多字词的增强互信息值大于增强互信息阈值,则执行步骤4.2;若该候选多字词的增强互信息值小于等于增强互信息阈值,则将该候选多字词加入候选新词集合;
步骤4.2:计算步骤4.1得到的候选多字词的加权左邻接熵值和加权右邻接熵值,若候选多字词的加权左邻接熵值和加权右邻接熵值均大于加权邻接熵阈值,则将该候选多字词与该候选多字词的右邻接字结合获得更新的候选多字词,用更新的候选多字词替换步骤4.1中的候选多字词并返回步骤4.1;否则,返回步骤4.1并重新选定单字词;
步骤5:计算所有候选新词所在的候选句子和旧词所在常用句子间的句法结构相似度和语义相似度,根据所有候选新词所在的候选句子和旧词所在常用句子间的句法结构相似度和语义相似度计算相似性指标如式Ⅰ所示,将所有相似性指标大于相似性阈值的候选句子所对应的候选新词作为新词,得到新词集合;
其中,SIM(S1,S2)表示候选新词所在的候选句子S1与旧词所在常用句子S2
SIM(S1,S2)=μSimdep(S1,S2)+(1-μ)Simsem(S1,S2) 式Ⅰ
的相似性指标,Simdep(S1,S2)表示候选新词所在的候选句子S1与旧词所在常用句子S2的句法结构相似度,Simsem(S1,S2)表示候选新词所在的候选句子S1与旧词所在常用句子S2的语义相似度,μ为平衡因子且μ∈[0,1]。
2.如权利要求1所述的基于统计量与相似性的网络新词发现方法,其特征在于,所述的增强互信息值采用式Ⅱ进行计算:
其中,w为候选多字词,w=w1w2…wi…wS,wi表示候选多字词w中的第i个单字i∈[1,S],nw为候选多字词w的词频,为候选多字词w中第i个单字的词频,N为候选句子集合的句子总数,f为平滑因子且f>0。
3.如权利要求1所述的基于统计量与相似性的网络新词发现方法,其特征在于,所述加权左邻接熵值采用式Ⅲ进行计算,所述加权右邻接熵值采用式Ⅳ进行计算:
其中,Wl是候选多字词w的左邻接字集合,Wr是候选多字词w的右邻接字集合,p(wl|w)表示wl为候选多字词w左邻接字时的概率值,p(wr|w)表示wr为候选多字词w右邻接字时的概率,和表示权值且权值的取值范围为{1,1.5}。
4.如权利要求1所述的基于统计量与相似性的网络新词发现方法,其特征在于,所述的词频阈值为10,增强互信息阈值为5,加权邻接熵阈值为3,相似性阈值为0.6。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110235703.2/1.html,转载请声明来源钻瓜专利网。