[发明专利]一种新词识别方法、装置、电子设备及存储介质有效

申请号：	202011310172.0	申请日：	2020-11-20
公开（公告）号：	CN112364628B	公开（公告）日：	2022-04-15
发明（设计）人：	李兆钧;雷小平	申请（专利权）人：	创优数字科技（广东）有限公司
主分类号：	G06F40/216	分类号：	G06F40/216;G06F40/279;G06F40/30;G06F16/335
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	苏云辉
地址：	516000 广东省广州市海珠区***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种新词识别方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种新词识别方法、装置、电子设备及存储介质，包括：获取多项文本数据，生成语料库；对所述语料库中的所述文本数据进行预处理，得到预处理数据；采用所述预处理数据生成候选词库；通过预设新词识别模型识别所述候选词库中的新词。本发明首先是生成候选词库，可以发挥统计方法的优点，具有较高的识别准确率。接着通过预设新词识别模型识别候选词库中的新词，可以解决基于规则方法需要费时费力撰写规则的确定。从而解决了现有的新词识别方法无法兼顾识别准确率和实现简便性的技术问题。

技术领域

本发明涉及文字识别技术领域，尤其涉及一种新词识别方法、装置、电子设备及存储介质。

背景技术

新词识别是NLP的基础任务之一，主要是希望通过无监督发掘一些语言特征(主要是统计特征)，来判断一批语料中哪些字符片段可能是一个新词。

现有的新词识别方法主要包括两种，一种是基于规则方法，一种是基于统计方法。

基于规则方法的新词识别一般由以下步骤实现：

1、建立特殊构词规则库；

2、按照规则所取的作用分为“互斥性子串”过滤规则、常规构词规则、特殊构词规则；

3、利用上述规则过滤并确定新词。

基于统计方法的新词识别一般由以下步骤实现：

1、从网上获取大规模待处理的文本，预处理之后进行分词和词性标注，然后建立二元统计模型。

2、利用统计方法选出共现频次在均值之上的词汇组合作为候选词串，对候选结果再利用单字组合词规则、多字组合词规则等过滤；

由人工选择确定最终的新词结果。

然而，基于规则方法的新词识别，虽然在封闭领域的准确率相对较高，但缺点也是只局限在该领域，而且需要建立领域规则库；由于建立规则的过程需要对新词的特点进行细致的分析，费时费力，而且规则常常与领域相关，难以迁移到新领域。而基于统计方法的新词识别，虽然免于规则方法总结规则的费时费力，能够快速产生一批候选短语，不过通常准确率不高，也需要巨大的人工成本进行短语过滤，而且统计方法对于长词、出现频率低的词捕捉性能不够好，常常会遗漏，而且不能调优。

发明内容

本发明提供了一种新词识别方法、装置、电子设备及存储介质，用于解决现有的新词识别方法无法兼顾识别准确率和实现简便性的技术问题。

本发明提供的一种新词识别方法，包括：

获取多项文本数据，生成语料库；

对所述语料库中的所述文本数据进行预处理，得到预处理数据；

采用所述预处理数据生成候选词库；

通过预设新词识别模型识别所述候选词库中的新词。

可选地，所述预处理数据为符号序列；所述对所述语料库中的所述文本数据进行预处理，得到预处理数据的步骤，包括：

从所述语料库中的所述文本数据中提取正文数据，并从所述正文数据中剔除标签数据，得到去标签数据；

通过预设关键词检测所述去标签数据中的噪声文本，并去除所述噪声文本，得到去噪数据；

标记化所述去噪数据，得到至少一个所述符号序列。

可选地，所述采用所述预处理数据生成候选词库的步骤，包括：