[发明专利]一种特定实体名称识别优化方法在审

申请号：	202211328481.X	申请日：	2022-10-26
公开（公告）号：	CN115481623A	公开（公告）日：	2022-12-16
发明（设计）人：	彭浩	申请（专利权）人：	四川虹微技术有限公司
主分类号：	G06F40/279	分类号：	G06F40/279;G06F40/284;G06F40/211;G06F40/226
代理公司：	四川省成都市天策商标专利事务所(有限合伙) 51213	代理人：	刘兴亮
地址：	610000 四川省成都市中国（四川）***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种特定实体名称识别优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种特定实体名称识别优化方法，通过训练bilstm‑crf模型，再对用户输入的文本提取可能实体，通过句法分析、冲突检测，将特定实体名称成分合并，得到所有可能的候选名称，再经过数据库验证后，将最后结果去重输出，该方法克服了现有识别技术中实体边界识别出现偏差，识别出的特定实体名称出现错误的问题，能够更好的将混杂有干扰项的特定实体名称识别出来，提高了用户语音检索带定语等模棱两可成分的特定实体名称正确率。

技术领域

本发明涉及自然语言处理领域，更具体地，本发明涉及一种特定实体名称识别优化方法。

背景技术

随着语音识别技术的发展，通过语音输入进行操作已经越来越常见，在进行语音操作时，语音可能会含有特定实体名称，比如：书名、歌曲名、影视作品名、绘画作品名等等，由于以上特定实体名称往往与句子本身内容关系不大，极容易在识别时造成误识别，如果能提前知晓特定实体名称，进而在文本实体识别中得到正确的分词，算法获得正确的实体边界和实体类型就会比较容易。

但现有技术中，算法不能快速获得未知的特定实体名称，且容易把特定实体中的定语部分识别为对特定实体的定语，例如影视名称为“2017年的雪”，其中的“2017年”就容易被识别为对影视的定语，而搜寻2017年上映的名称为雪的作品，再例如“腾讯视频动漫年度发布会”，其中的“腾讯视频”容易被识别为视频平台名字，而导致实体边界识别出现偏差，最终识别出的特定实体名称出现错误。

发明内容

本发明克服了现有技术的不足，提供一种特定实体名称识别优化方法，以期望可以解决特定实体识别易错的问题。提高了用户语音检索带定语等模棱两可成分的特定实体名称正确率。

为解决上述的技术问题，本发明的一种实施方式采用以下技术方案：

一种特定实体名称识别优化方法，包括以下步骤：

S1：训练bilstm-crf模型；

利用标注好实体数据的用户数据离线训练字级别的bilstm-crf模型；

通过训练得到基础算法模型，所述基础算法模型用于在线提取用户输入中包括特定实体名称在内的所有可能实体；

S2：提取可能实体；

利用训练好的bilstm-crf模型对用户输入进行在线实体识别，提取出第一特定实体名称和其他可能实体；

S3：句法分析；

利用句法分析方法，对用户文本进行句法分析得到文本的依存句法；

S4：冲突检测；