[发明专利]一种基于统计量与相似性的网络新词发现方法及系统有效
申请号: | 202110235703.2 | 申请日: | 2021-03-03 |
公开(公告)号: | CN113033183B | 公开(公告)日: | 2023-10-27 |
发明(设计)人: | 陈莉;张爽;李铮 | 申请(专利权)人: | 西北大学 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/289;G06F40/253;G06F40/30;G06F18/22 |
代理公司: | 西安恒泰知识产权代理事务所 61216 | 代理人: | 王芳 |
地址: | 710069 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于自然语言处理领域,公开了一种基于统计量与相似性的网络新词发现方法及系统,先计算单字词的词频得到初始的单字词集合,并利用改进后的增强互信息和加权左右邻接熵从左向右扩展多字候选词,合并单字词集和多字词集得到候选新词集,然后将候选词作为中心词进行依存句法分析,计算句法结构的相似性值和候选新词所在句子与历史表达的语义相似值,进行过滤得到新词集合。和传统的统计量计算结果相比,本发明选用的方法可以有效过滤部分重复含义的词串,也解决了字词出现次数以及贡献不对称问题,加入相似性判断之后,有效提高了新词发现的准确。 | ||
搜索关键词: | 一种 基于 统计 相似性 网络 新词 发现 方法 系统 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202110235703.2/,转载请声明来源钻瓜专利网。