[发明专利]命名实体识别方法、装置、服务器及存储介质在审
申请号: | 201811564494.0 | 申请日: | 2018-12-20 |
公开(公告)号: | CN111353308A | 公开(公告)日: | 2020-06-30 |
发明(设计)人: | 孙薇薇;汉斯·乌思克尔特;艾人龙 | 申请(专利权)人: | 北京深知无限人工智能研究院有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/216;G06N3/04 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100176 北京市大兴区北京经*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命名 实体 识别 方法 装置 服务器 存储 介质 | ||
本发明实施例公开了一种命名实体识别方法、装置、服务器及存储介质。其中,该方法包括:将原始语句作为各分词词性标注模型的输入,得到各词语序列;根据各词语序列中词语之间的重合关系,确定子词语序列;依据所述子词语序列中各子词语及各子词语的词性标签,得到所述原始语句的命名实体标签;依据所述原始语句及所述命名实体标签,确定所述原始语句的命名实体。通过本发明实施例提供的技术方案,能够提高命名实体识别的准确性。
技术领域
本发明实施例涉及人工智能技术领域,尤其涉及一种命名实体识别方法、装置、服务器及存储介质。
背景技术
命名实体识别(Named Entity Recognition,命名实体识别)是一项重要的自然语言处理任务,旨在在文本中自动发现诸如人名、地名、组织机构名等以名称作为标识的实体。高质量的自动命名实体识别分析工具对基于海量文本的自动信息挖掘具有重要意义,是信息抽取的核心技术之一。
而现有的自动命名实体识别分析工具存在异质分词的情况,从而导致原始语句的命名实体识别结果不准确。
发明内容
本发明实施例提供了一种命名实体识别方法、装置、服务器及存储介质,提高了命名实体识别的准确性。
第一方面,本发明实施例提供了一种命名实体识别方法,该方法包括:
将原始语句作为各分词词性标注模型的输入,得到各词语序列;
根据各词语序列中词语之间的重合关系,确定子词语序列;
依据所述子词语序列中各子词语及各子词语的词性标签,得到所述各子词语的命名实体标签;
依据所述各子词语及所述各子词语的命名实体标签,确定所述原始语句的命名实体。
第二方面,本发明实施例还提供了一种命名实体识别装置,该装置包括:
词语序列确定模块,用于将原始语句作为各分词词性标注模型,得到各词语序列;
子词语序列确定模块,用于根据各词语序列中词语之间的重合关系,确定子词语序列;
标签确定模块,用于依据所述子词语序列中各子词语及各子词语的词性标签,得到所述各子词语的命名实体标签;
命名实体确定模块,用于依据所述各子词语及所述各子词语的命名实体标签,确定所述原始语句的命名实体。
第三方面,本发明实施例还提供了一种服务器,该服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现第一方面中任意所述的命名实体识别方法。
第四方面,本发明实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任意所述的命名实体识别方法。
本发明实施例提供的命名实体识别方法、装置、服务器及存储介质,在获取原始语句后,通过将原始语句输入至各分词词性标注模型,得到各词语序列,并根据各词语序列中词语之间的重合关系,确定子词语序列;而后依据子词语序列中各子词语及其词性标签,得到各子词语的命名实体标签,进而依据各子词语命名实体及各子词语即可得到该原始语句中所包含的命名实体。相比于现有的命名实体识别方案,本方案不再依赖单一的分词结果,通过充分考虑多个分词词性标注模型的输出结果确定子词语序列,能够规避单一分词结果造成的分词错误或不准确等问题;并结合各子词语及各子词语的词性标签两个维度,保证了所确定的命名实体标签的准确度,进而保证原始语句命名实体识别的准确性。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京深知无限人工智能研究院有限公司,未经北京深知无限人工智能研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811564494.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种实现数据同步的装置和方法
- 下一篇:区块链交易处理方法及系统