[发明专利]一种基于统计量与相似性的网络新词发现方法及系统有效

专利信息
申请号: 202110235703.2 申请日: 2021-03-03
公开(公告)号: CN113033183B 公开(公告)日: 2023-10-27
发明(设计)人: 陈莉;张爽;李铮 申请(专利权)人: 西北大学
主分类号: G06F40/216 分类号: G06F40/216;G06F40/289;G06F40/253;G06F40/30;G06F18/22
代理公司: 西安恒泰知识产权代理事务所 61216 代理人: 王芳
地址: 710069 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 统计 相似性 网络 新词 发现 方法 系统
【权利要求书】:

1.一种基于统计量与相似性的网络新词发现方法,其特征在于,包括如下步骤:

步骤1:获取文本段落,对文本段落进行预处理,获得候选句子集合,获取旧词,并将旧词所在句子作为常用句子,获得常用句子集合;

步骤2:将候选句子集中的每个候选句子依次切分为单字,将切分后的得到的所有单字作为单字词集;

步骤3:计算步骤2得到的单字词集中每个单字的词频,将词频大于词频阈值的所有单字作为候选单字集合;

步骤4:将步骤2得到的单字词集中的每个单字词进行向右扩展得到候选多字词集合,将候选单字集合和候选多字词集合进行合并,得到候选新词集合;

其中,对每个单字词进行向右扩展包括如下子步骤:

步骤4.1:在单字词集选定单字词,将该单字词与该单字词的右邻接字结合为候选多字词,计算候选多字词的增强互信息值;

若候选多字词的增强互信息值大于增强互信息阈值,则执行步骤4.2;若该候选多字词的增强互信息值小于等于增强互信息阈值,则将该候选多字词加入候选新词集合;

步骤4.2:计算步骤4.1得到的候选多字词的加权左邻接熵值和加权右邻接熵值,若候选多字词的加权左邻接熵值和加权右邻接熵值均大于加权邻接熵阈值,则将该候选多字词与该候选多字词的右邻接字结合获得更新的候选多字词,用更新的候选多字词替换步骤4.1中的候选多字词并返回步骤4.1;否则,返回步骤4.1并重新选定单字词;

步骤5:计算所有候选新词所在的候选句子和旧词所在常用句子间的句法结构相似度和语义相似度,根据所有候选新词所在的候选句子和旧词所在常用句子间的句法结构相似度和语义相似度计算相似性指标如式Ⅰ所示,将所有相似性指标大于相似性阈值的候选句子所对应的候选新词作为新词,得到新词集合;

其中,SIM(S1,S2)表示候选新词所在的候选句子S1与旧词所在常用句子S2

SIM(S1,S2)=μSimdep(S1,S2)+(1-μ)Simsem(S1,S2) 式Ⅰ

的相似性指标,Simdep(S1,S2)表示候选新词所在的候选句子S1与旧词所在常用句子S2的句法结构相似度,Simsem(S1,S2)表示候选新词所在的候选句子S1与旧词所在常用句子S2的语义相似度,μ为平衡因子且μ∈[0,1]。

2.如权利要求1所述的基于统计量与相似性的网络新词发现方法,其特征在于,所述的增强互信息值采用式Ⅱ进行计算:

其中,w为候选多字词,w=w1w2…wi…wS,wi表示候选多字词w中的第i个单字i∈[1,S],nw为候选多字词w的词频,为候选多字词w中第i个单字的词频,N为候选句子集合的句子总数,f为平滑因子且f>0。

3.如权利要求1所述的基于统计量与相似性的网络新词发现方法,其特征在于,所述加权左邻接熵值采用式Ⅲ进行计算,所述加权右邻接熵值采用式Ⅳ进行计算:

其中,Wl是候选多字词w的左邻接字集合,Wr是候选多字词w的右邻接字集合,p(wl|w)表示wl为候选多字词w左邻接字时的概率值,p(wr|w)表示wr为候选多字词w右邻接字时的概率,和表示权值且权值的取值范围为{1,1.5}。

4.如权利要求1所述的基于统计量与相似性的网络新词发现方法,其特征在于,所述的词频阈值为10,增强互信息阈值为5,加权邻接熵阈值为3,相似性阈值为0.6。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110235703.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top