[发明专利]一种特定实体名称识别优化方法在审
| 申请号: | 202211328481.X | 申请日: | 2022-10-26 |
| 公开(公告)号: | CN115481623A | 公开(公告)日: | 2022-12-16 |
| 发明(设计)人: | 彭浩 | 申请(专利权)人: | 四川虹微技术有限公司 |
| 主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/284;G06F40/211;G06F40/226 |
| 代理公司: | 四川省成都市天策商标专利事务所(有限合伙) 51213 | 代理人: | 刘兴亮 |
| 地址: | 610000 四川省成都市中国(四川)*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 特定 实体 名称 识别 优化 方法 | ||
本发明公开了一种特定实体名称识别优化方法,通过训练bilstm‑crf模型,再对用户输入的文本提取可能实体,通过句法分析、冲突检测,将特定实体名称成分合并,得到所有可能的候选名称,再经过数据库验证后,将最后结果去重输出,该方法克服了现有识别技术中实体边界识别出现偏差,识别出的特定实体名称出现错误的问题,能够更好的将混杂有干扰项的特定实体名称识别出来,提高了用户语音检索带定语等模棱两可成分的特定实体名称正确率。
技术领域
本发明涉及自然语言处理领域,更具体地,本发明涉及一种特定实体名称识别优化方法。
背景技术
随着语音识别技术的发展,通过语音输入进行操作已经越来越常见,在进行语音操作时,语音可能会含有特定实体名称,比如:书名、歌曲名、影视作品名、绘画作品名等等,由于以上特定实体名称往往与句子本身内容关系不大,极容易在识别时造成误识别,如果能提前知晓特定实体名称,进而在文本实体识别中得到正确的分词,算法获得正确的实体边界和实体类型就会比较容易。
但现有技术中,算法不能快速获得未知的特定实体名称,且容易把特定实体中的定语部分识别为对特定实体的定语,例如影视名称为“2017年的雪”,其中的“2017年”就容易被识别为对影视的定语,而搜寻2017年上映的名称为雪的作品,再例如“腾讯视频动漫年度发布会”,其中的“腾讯视频”容易被识别为视频平台名字,而导致实体边界识别出现偏差,最终识别出的特定实体名称出现错误。
发明内容
本发明克服了现有技术的不足,提供一种特定实体名称识别优化方法,以期望可以解决特定实体识别易错的问题。提高了用户语音检索带定语等模棱两可成分的特定实体名称正确率。
为解决上述的技术问题,本发明的一种实施方式采用以下技术方案:
一种特定实体名称识别优化方法,包括以下步骤:
S1:训练bilstm-crf模型;
利用标注好实体数据的用户数据离线训练字级别的bilstm-crf模型;
通过训练得到基础算法模型,所述基础算法模型用于在线提取用户输入中包括特定实体名称在内的所有可能实体;
S2:提取可能实体;
利用训练好的bilstm-crf模型对用户输入进行在线实体识别,提取出第一特定实体名称和其他可能实体;
S3:句法分析;
利用句法分析方法,对用户文本进行句法分析得到文本的依存句法;
S4:冲突检测;
判断S2识别的第一特定实体名称和S3得到的依存句法在分词层面上是否有冲突,如果有冲突,则直接将S2识别出的第一特定实体名称和其他可能实体作为输出;
如果没有冲突,则执行S5;
所述是否有冲突,即算法识别的第一特定实体名称必须是句法分析单个成分或多个成分之和,不能有交叉。
S5:第一特定实体名称相关成分合并;
利用S3结果,递归合并依赖于S2识别出的第一特定实体名称的成分,以及依赖于第一特定实体名称的成分的子成分;
所述递归合并的内容必须文本相邻,符合S2中用户输入的顺序,且合并词包含S2提取出的第一特定实体名称,最终得到所有可能为最终特定实体名称的候选名;
S6:数据库验证;
将S5中得到的所有可能最终特定实体名称在数据库中进行验证;
如果有验证匹配的最终特定实体名称,则执行S7;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川虹微技术有限公司,未经四川虹微技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211328481.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:注浆器及注浆器的注浆方法
- 下一篇:防松偏心螺钉及包含其的螺旋面铣削刀片





