[发明专利]新词识别方法和装置在审

申请号：	202011203082.1	申请日：	2020-11-02
公开（公告）号：	CN114444491A	公开（公告）日：	2022-05-06
发明（设计）人：	张家豪	申请（专利权）人：	慧科讯业有限公司
主分类号：	G06F40/284	分类号：	G06F40/284
代理公司：	北京市君合律师事务所 11517	代理人：	王再芊;毕长生
地址：	中国香港湾仔告士打道***	国省代码：	香港;81
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	新词识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种新词识别方法和装置。新词识别方法包括：获取候选词；计算所述候选词的内部凝固度；根据计算出的内部凝固度和预设的凝固度阈值，判断所述候选词是否为新词。本发明的技术方案通过将任意候选词的内部凝固度与预设的凝固度阈值进行比较，从而快速且准确地从任意来源的文本中识别新词。

技术领域

本发明涉及自然语言处理领域，尤其涉及一种新词识别方法和装置。

背景技术

随着互联网和信息技术的发展，新词的出现频率越来越高，流行速度也越来越快。虽然新词的出现能够有效地丰富语言表达,但是却给中文信息处理带来了挑战。事实上，在对语言文字进行处理的过程中，由于新词的存在,词法分析器在分词时常常出现不能识别的词碎片,这极大地影响了分词的精度，从而降低了分析结果的准确性。

新词识别主要提供精准分词的目的,进而可以应用在文字云、热词分析、词向量模型等方面,让新的名词(例如:新冠肺炎、氮化镓、瑞德西韦等等)能够被识别出来。现有的新词发现的方法可以分为两类。第一类是基于分类的方法，第二类是基于标注的方法。基于分类的方法是先从语料库中抽取候选字符串，然后依据规则或统计信息再判断候选字符串是不是新词。基于标注的方法则是新词发现与中文分词相结合，在分词的基础上发现新词。但是，现有的新词发现方法的新词识别准确率和召回率都不能达到令人满意的水平。特别是在识别较长的新词时，现有的新词发现方法的新词识别准确率和召回率都不能得到保证。

因此，需要提供一种能够改善新词、特别是较长新词的识别准确率和召回率的方法。

发明内容

有鉴于此，本发明提出了一种新词识别方法和装置，其能解决以上技术问题。

本发明的技术方案如下：

一种新词识别方法，包括：

获取候选词；

计算所述候选词的内部凝固度；

根据计算出的内部凝固度和预设的凝固度阈值，判断所述候选词是否为新词。

根据本发明一优选实施例，所述候选词是从文章中获取的n-gram候选词。

根据本发明一优选实施例，计算所述候选词的内部凝固度包括：

计算所述候选词的点互信息；

根据所述点互信息计算所述内部凝固度。