[发明专利]一种基于统计量与相似性的网络新词发现方法及系统有效

申请号：	202110235703.2	申请日：	2021-03-03
公开（公告）号：	CN113033183B	公开（公告）日：	2023-10-27
发明（设计）人：	陈莉;张爽;李铮	申请（专利权）人：	西北大学
主分类号：	G06F40/216	分类号：	G06F40/216;G06F40/289;G06F40/253;G06F40/30;G06F18/22
代理公司：	西安恒泰知识产权代理事务所 61216	代理人：	王芳
地址：	710069 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于统计相似性网络新词发现方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于自然语言处理领域，公开了一种基于统计量与相似性的网络新词发现方法及系统，先计算单字词的词频得到初始的单字词集合，并利用改进后的增强互信息和加权左右邻接熵从左向右扩展多字候选词，合并单字词集和多字词集得到候选新词集，然后将候选词作为中心词进行依存句法分析，计算句法结构的相似性值和候选新词所在句子与历史表达的语义相似值，进行过滤得到新词集合。和传统的统计量计算结果相比，本发明选用的方法可以有效过滤部分重复含义的词串，也解决了字词出现次数以及贡献不对称问题，加入相似性判断之后，有效提高了新词发现的准确。

技术领域

本发明属于自然语言处理领域，具体涉及一种基于统计量与相似性的网络新词发现方法及系统。

背景技术

新词发现通常指的是未登录词的发现，这些词大多来自于微博文本、短视频评论以及长视频弹幕。目前新词发现方法的主流方法是基于规则和统计相结合的方法，该方法结合了两种方法的优点。基于规则的方法主要利用语言学中的构词规则、词性以及语义信息设计出可以进行词语匹配的规则模板，然后通过设计好的模板对语料进行匹配发现新词，在特定领域使用这种方法进行新词发现的准确率较高，但可移植性较差，需要耗费大量的人力物力。基于统计的方法是通过词频、互信息及邻接熵等统计信息量来识别新词，基于统计的方法更为灵活，可移植性强且易于扩展。

目前，已经有研究学者对新词发现方法进行优化，包括：提出从左到右逐字扩展候选词串的切分方法，并利用互信息和左右邻接熵等统计特征得到候选词集，最后删除候选新词的首尾停用词、过滤旧词语，有效提高了新词发现的效率，但该方法对低频新词的识别准确率不高。还有在传统互信息公式中加入相似性增强值的计算，过滤非新词的固定表达，在小规模语料库上取得了不错的效果，但该方法忽略了句子结构以及停用词对实验结果的影响。还有提出基于依存句法分析和词向量结合的领域新词发现方法，以依存句法分析为基础构建句法词典，再结合词向量技术可以有效识别领域新词，但该方法对于开放领域的新词识别具有局限性。

综上所述，现有技术存在的问题是：未考虑单字词作为新词的情况，并且忽略了句子结构信息和上下文语义信息对于新词识别的影响，因此新词识别的准确率不高。

发明内容

本发明的目的在于提供一种基于统计量与相似性的网络新词发现方法及系统，用以解决现有技术中的未考虑单字词作为新词的情况，并且忽略了句子结构信息和上下文语义信息对于新词识别的影响，因此新词识别的准确率不高的问题。

为了实现上述任务，本发明采用以下技术方案：

一种基于统计量与相似性的网络新词发现方法，包括如下步骤：

步骤1：获取文本段落，对文本段落进行预处理，获得候选句子集合，获取旧词，并将旧词所在句子作为常用句子，获得常用句子集合；

步骤2：将候选句子集中的每个候选句子依次切分为单字，将切分后的得到的所有单字作为单字词集；

步骤3：计算步骤2得到的单字词集中每个单字的词频，将词频大于词频阈值的所有单字作为候选单字集合；

步骤4：将步骤2得到的单字词集中的每个单字词进行向右扩展得到候选多字词集合，将候选单字集合和候选多字词集合进行合并，得到候选新词集合；

其中，对每个单字词进行向右扩展包括如下子步骤：

步骤4.1：在单字词集选定单字词，将该单字词与该单字词的右邻接字结合为候选多字词，计算候选多字词的增强互信息值；

若候选多字词的增强互信息值大于增强互信息阈值，则执行步骤4.2；若该候选多字词的增强互信息值小于等于增强互信息阈值，则将该候选多字词加入候选新词集合；