[发明专利]金融命名实体识别方法及系统、存储介质及终端有效
申请号: | 202110913735.3 | 申请日: | 2021-08-10 |
公开(公告)号: | CN113642331B | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 周凯敏;张秀龙 | 申请(专利权)人: | 东方财富信息股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/33;G06Q40/00 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 徐秋平 |
地址: | 201801 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 金融 命名 实体 识别 方法 系统 存储 介质 终端 | ||
1.一种金融命名实体识别方法,其特征在于:包括以下步骤:
对金融命名实体数据库中的实体词进行扩展,生成拓展实体词数据库;
构建金融命名实体的实体词候选模型;
基于所述实体词候选模型,在待识别文本中筛选出候选实体词;
基于所述拓展实体词数据库验证所述候选实体词;
对通过验证的候选实体词进行消歧处理,获取所述待识别文本中的金融命名实体的识别结果;
构建金融命名实体的实体词候选模型包括以下步骤:
设定实体词的首两字和尾两字,并确定包含所述首两字和所述尾两字的实体词最大长度;
将所述实体词基于MD5算法映射为128比特的数据;
将所述128比特的数据按照顺序等分为4个32比特的数据;
对于每个32比特的数据,将前27比特数据对应为一227个元素且初始值为0的整型数组的下标,后5比特数据映射为所述下标对应的整型元素对应的末5映射位并将所述末5映射位置1;所述末5映射位是以后5比特数据转换得到0-31的数值对应的所述整型元素由后向前的比特位。
2.根据权利要求1所述的金融命名实体识别方法,其特征在于:对金融命名实体数据库中的实体词进行扩展,生成拓展实体词数据库包括以下步骤:
根据实体词类型优先级依次获取待拓展实体词;
对于包含公司后缀的所述待拓展实体词,判断去除所述公司后缀的待拓展实体词是否已包含在所述拓展实体词数据库中;若否,将去除所述公司后缀的待拓展实体词添加至所述拓展实体词数据库中;
对于包含地名前缀的所述待拓展实体词,判断去除所述地名前缀的待拓展实体词是否已包含在所述拓展实体词数据库中;若否,将去除所述地名前缀的待拓展实体词添加至所述拓展实体词数据库中;
对于包含地名前缀和公司后缀的所述待拓展实体词,判断去除所述地名前缀和所述公司后缀的待拓展实体词是否已包含在所述拓展实体词数据库中;若否,将去除所述地名前缀和所述公司后缀的待拓展实体词添加至所述拓展实体词数据库中。
3.根据权利要求2所述的金融命名实体识别方法,其特征在于:所述实体词类型优先级从高到低依次为上市公司、发行金融产品的非上式公司和不发行金融产品的非上市公司;不发行金融产品的非上市公司根据注册资本划分优先级。
4.根据权利要求1所述的金融命名实体识别方法,其特征在于:基于所述实体词候选模型,在待识别文本中筛选出候选实体词包括以下步骤:
以两个字为窗口遍历所述待识别文本,基于设定的首两字、尾两字以及所述实体词最大长度,筛选疑似实体词;
对于每个所述疑似实体词,基于MD5算法映射为128比特的数据;将所述128比特的数据按照顺序等分为4个32比特的数据;对于每个32比特的数据,将前27比特数据对应为所述整型数组的下标,后5比特数据映射为所述下标对应的整型元素对应的末5映射位;
在所述实体词候选模型中查找与所述疑似实体词的四个整型元素的末5映射位对应的比特位,仅当四个比特位均为1时,判定所述疑似实体词为候选实体词。
5.根据权利要求1所述的金融命名实体识别方法,其特征在于:基于所述拓展实体词数据库验证所述候选实体词包括以下步骤:
令所述拓展实体词数据库中同一金融命名实体对应的实体词具有相同的唯一标识信息;
在所述拓展实体词数据库中查找所述候选实体词对应的唯一标识信息和金融命名实体全称;若查找成功,则所述候选实体词验证通过。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东方财富信息股份有限公司,未经东方财富信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110913735.3/1.html,转载请声明来源钻瓜专利网。