[发明专利]一种特定实体名称识别优化方法在审
| 申请号: | 202211328481.X | 申请日: | 2022-10-26 |
| 公开(公告)号: | CN115481623A | 公开(公告)日: | 2022-12-16 |
| 发明(设计)人: | 彭浩 | 申请(专利权)人: | 四川虹微技术有限公司 |
| 主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/284;G06F40/211;G06F40/226 |
| 代理公司: | 四川省成都市天策商标专利事务所(有限合伙) 51213 | 代理人: | 刘兴亮 |
| 地址: | 610000 四川省成都市中国(四川)*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 特定 实体 名称 识别 优化 方法 | ||
1.一种特定实体名称识别优化方法,其特征在于,包括以下步骤,
S1:训练bilstm-crf模型;
利用标注好实体数据的用户数据离线训练字级别的bilstm-crf模型;
S2:提取可能实体;
利用训练好的bilstm-crf模型对用户输入进行在线实体识别,提取出第一特定实体名称和其他可能实体;
S3:句法分析;
利用句法分析方法,对用户文本进行句法分析得到文本的依存句法;
S4:冲突检测;
判断S2识别的第一特定实体名称和S3得到的依存句法在分词层面上是否有冲突,如果有冲突,则直接将S2识别出的第一特定实体名称和其他可能实体作为输出;
如果没有冲突,则执行S5;
S5:第一特定实体名称相关成分合并;
利用S3结果,递归合并依赖于S2识别出的第一特定实体名称的成分,以及依赖于第一特定实体名称的成分的子成分;
所述递归合并的内容必须文本相邻,符合S2中用户输入的顺序,且合并词包含S2提取出的第一特定实体名称,最终得到所有可能为最终特定实体名称的候选名;
S6:数据库验证;
将S5中得到的所有可能最终特定实体名称在数据库中进行验证;
如果有验证匹配的最终特定实体名称,则执行S7;
如果没有验证匹配的最终特定实体名称,则直接将S2识别出的第一特定实体名称和其他可能实体作为输出;
S7:去重输出;
将验证匹配长度最长的最终特定实体名称和其他可能实体输出,不再输出被最终特定实体名称合并的其他实体。
2.如权利要求1所述的一种特定实体名称识别优化方法,其特征在于,在S1训练bilstm-crf模型时,bilstm-crf模型在字嵌入层的字向量需要加入分词特征,包括词的起始、中间、结尾、单字词四种特征。
3.如权利要求1所述的一种特定实体名称识别优化方法,其特征在于,所述S3中利用的句法分析方法包括,DDParser、LTP、FNLP。
4.如权利要求3所述的一种特定实体名称识别优化方法,其特征在于,所述步骤S3中利用的句法分析方法具体为DDParser。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川虹微技术有限公司,未经四川虹微技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211328481.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:注浆器及注浆器的注浆方法
- 下一篇:防松偏心螺钉及包含其的螺旋面铣削刀片





