[发明专利]一种简称提取方法及装置有效
| 申请号: | 202010545742.8 | 申请日: | 2020-06-16 |
| 公开(公告)号: | CN111695340B | 公开(公告)日: | 2021-12-28 |
| 发明(设计)人: | 蔡远航;郑少杰;付勇;范增虎 | 申请(专利权)人: | 深圳前海微众银行股份有限公司 |
| 主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/211;G06F40/284;G06F40/30;G06F16/33;G06F16/35 |
| 代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 彭燕 |
| 地址: | 518027 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 简称 提取 方法 装置 | ||
本发明公开了一种简称提取方法及装置,其中方法为:获取包含全称的多篇文本;根据所述全称在所述多篇文本中的分布,确定所述全称与所述多篇文本的相关度指数;根据所述全称与所述多篇文本的相关度指数,从所述多篇文本中确定出多篇候选文本;针对所述多篇候选文本中任一候选文本,根据所述候选文本的正文与第一预设句子结构,和\或根据所述候选文本的标题与所述全称的最长公共子序列,提取所述候选文本中包含的候选简称;将所述多篇候选文本中包含的多个候选简称中满足合法性校验的候选简称,作为所述全称的简称。上述方法应用于金融科技(Fintech)时,经过多层筛选,得到所述全称的简称,相对于单一的提取规则,有更高的准确性。
技术领域
本发明涉及金融科技(Fintech)领域中的人工智能领域,尤其涉及一种简称提取方法及装置。
背景技术
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对技术提出的更高的要求。当前的金融行业中,对实体的舆情监控已成为实体管理的重要一环。举例来说,实体为企业,对企业可以通过舆情数据快速追踪到企业的风险状况,比如企业的涨跌情况,企业是否被曝有严重的负债情况,企业经营中是否有违法行为,企业是否存在法律诉讼等。然而,由于舆情报道(如新闻报道)中通常用实体的简称来指代对应实体,而实体登记信息中可能没有记录实体简称信息,因此需要提取出实体简称。
目前提取简称的常用方法是“切头去尾”,将实体全称分为三个部分:地区部分,中间部分,后缀部分。举例来说,对于“L地区X有限公司”,分为三个部分分别为“L地区”,“X”,“有限公司”,去掉地区部分和后缀部分后,得到“X”即是企业的简称。显然,简称的形式多种多样,这样的提取方式较单一,准确率偏低,这是一个亟待解决的问题。
发明内容
本发明提供一种简称提取方法及装置,解决了现有技术中简称提取的准确率偏低的问题。
第一方面,本发明提供一种简称提取方法,包括:获取包含全称的多篇文本;其中,每篇文本包括标题和\或正文;根据所述全称在所述多篇文本中的分布,确定所述全称与所述多篇文本的相关度指数;根据所述全称与所述多篇文本的相关度指数,从所述多篇文本中确定出多篇候选文本;针对所述多篇候选文本中任一候选文本,根据所述候选文本的正文与第一预设句子结构,和\或根据所述候选文本的标题与所述全称的最长公共子序列,提取所述候选文本中包含的候选简称;将所述多篇候选文本中包含的多个候选简称中满足合法性校验的候选简称,作为所述全称的简称。
上述方法中,获取了全称的多篇文本后,首先根据所述全称在所述多篇文本中的分布,根据相关度指数,从所述多篇文本中筛选出多篇候选文本,再针对所述多篇候选文本中任一候选文本,根据所述候选文本的正文与第一预设句子结构,和\或根据所述候选文本的标题与所述全称的最长公共子序列,提取所述候选文本中包含的候选简称,再从多个候选简称筛选出满足合法性校验的候选简称,作为所述全称的简称,从而经过多层筛选,得到所述全称的简称,相对于单一的提取规则,有更高的准确性。
可选的,所述根据所述全称在所述多篇文本中的分布,确定所述全称与所述多篇文本的相关度指数;包括:针对所述多篇文本中任一文本,按照以下方式,将以下至少一项作为所述全称在所述文本的正文中的各分布指标:将所述全称在所述文本的正文中出现的总次数,作为所述第一指标;将出现所述全称的段落在所述文本的正文中的段落位置及在所述段落中出现的次数,作为所述第二指标;将出现所述全称的句子在所述文本的正文中的句子位置及所述句子的句子结构,作为所述第三指标;将所述全称在所述文本的正文中首次出现和最后一次出现位置之间的文本中的句子数量,作为所述第四指标;将所述全称在所述文本的正文中首次出现和最后一次出现位置之间的文本中包含所述全称的句子数量,作为所述第五指标;针对所述多篇文本中任一文本,根据所述全称在所述文本的正文中的各分布指标,确定所述各分布指标的权重值;根据所述各分布指标的权重值,确定所述全称与所述文本的正文的相关度指数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海微众银行股份有限公司,未经深圳前海微众银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010545742.8/2.html,转载请声明来源钻瓜专利网。





