[发明专利]金融命名实体识别方法及系统、存储介质及终端有效
申请号: | 202110913735.3 | 申请日: | 2021-08-10 |
公开(公告)号: | CN113642331B | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 周凯敏;张秀龙 | 申请(专利权)人: | 东方财富信息股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/33;G06Q40/00 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 徐秋平 |
地址: | 201801 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 金融 命名 实体 识别 方法 系统 存储 介质 终端 | ||
本发明提供一种金融命名实体识别方法及系统、存储介质及终端,包括以下步骤:对金融命名实体数据库中的实体词进行扩展,生成拓展实体词数据库;构建金融命名实体的实体词候选模型;基于所述实体词候选模型,在待识别文本中筛选出候选实体词;基于所述拓展实体词数据库验证所述候选实体词;对通过验证的候选实体词进行消歧处理,获取所述待识别文本中的金融命名实体的识别结果。本发明的金融命名实体识别方法及系统、存储介质及终端有效提高了金融命名实体的覆盖率,实现了金融命名实体的快速高效识别。
技术领域
本发明涉及命名实体识别的技术领域,特别是涉及一种金融命名实体识别方法及系统、存储介质及终端。
背景技术
命名实体就是人名、机构名、地名以及其他所有以名称为标识的实体。命名实体识别是指识别文本中具有特定意义的实体,是自然语言处理中的一项基础性关键任务。
金融命名实体识别是针对金融领域内的特定意义的命名实体进行识别。其中,金融命名实体主要包括股票、基金、债券、公司和组织机构。金融命名实体识别在金融资讯分类、资讯中的关键词提取起着重要作用,也是金融相关文本解析中事件抽取、关系抽取的基石。
现有技术中,命名实体识别主要采用以下四种方法:
(1)基于词典的方法;
(2)基于规则的方法
(3)基于概率模型的方法
(4)基于深度学习的方法。
然而,对于数量级较大的金融命名实体,现有的识别方法存在覆盖率较低、速度较慢的问题。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种金融命名实体识别方法及系统、存储介质及终端,有效提高了金融命名实体的覆盖率,实现了金融命名实体的快速高效识别。
为实现上述目的及其他相关目的,本发明提供一种金融命名实体识别方法,包括以下步骤:对金融命名实体数据库中的实体词进行扩展,生成拓展实体词数据库;构建金融命名实体的实体词候选模型;基于所述实体词候选模型,在待识别文本中筛选出候选实体词;基于所述拓展实体词数据库验证所述候选实体词;对通过验证的候选实体词进行消歧处理,获取所述待识别文本中的金融命名实体的识别结果。
于本发明一实施例中,对金融命名实体数据库中的实体词进行扩展,生成拓展实体词数据库包括以下步骤:
根据实体词类型优先级依次获取待拓展实体词;
对于包含公司后缀的所述待拓展实体词,判断去除所述公司后缀的待拓展实体词是否已包含在所述拓展实体词数据库中;若否,将去除所述公司后缀的待拓展实体词添加至所述拓展实体词数据库中;
对于包含地名前缀的所述待拓展实体词,判断去除所述地名前缀的待拓展实体词是否已包含在所述拓展实体词数据库中;若否,将去除所述地名前缀的待拓展实体词添加至所述拓展实体词数据库中;
对于包含地名前缀和公司后缀的所述待拓展实体词,判断去除所述地名前缀和所述公司后缀的待拓展实体词是否已包含在所述拓展实体词数据库中;若否,将去除所述地名前缀和所述公司后缀的待拓展实体词添加至所述拓展实体词数据库中。
于本发明一实施例中,所述实体词类型优先级从高到低依次为上市公司、发行金融产品的非上式公司和不发行金融产品的非上市公司;不发行金融产品的非上市公司根据注册资本划分优先级。
于本发明一实施例中,构建金融命名实体的实体词候选模型包括以下步骤:
设定实体词的首两字和尾两字,并确定包含所述首两字和所述尾两字的实体词最大长度;
将所述实体词基于MD5算法映射为128比特的数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东方财富信息股份有限公司,未经东方财富信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110913735.3/2.html,转载请声明来源钻瓜专利网。