[发明专利]一种实体名称分析识别方法在审
| 申请号: | 201810136345.8 | 申请日: | 2018-02-09 |
| 公开(公告)号: | CN108460016A | 公开(公告)日: | 2018-08-28 |
| 发明(设计)人: | 陈刚;何积丰 | 申请(专利权)人: | 中云开源数据技术(上海)有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
| 代理公司: | 上海世圆知识产权代理有限公司 31320 | 代理人: | 陈颖洁;王佳妮 |
| 地址: | 201306 上海市浦东新区南*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 候选词 名称分析 生成步骤 筛选 数据库生成 检索词 | ||
本发明公开了一种实体名称分析识别方法,包括以下步骤,检索词获取步骤、数据库生成步骤、实体全称候选词集生成步骤、实体全称候选词筛选步骤、实体简称候选词集生成步骤、实体简称候选词筛选步骤。
技术领域
本发明涉及自然语言处理等领域,具体为一种实体名称分析识别方法。
背景技术
随着互联网的快速发展,产生了大量的、公开的网页数据,也因此催发了各种基于大数据技术的新兴产业,比如互联网医疗、互联网教育、企业或者个人征信等。怎样从这些大数据中有效的、快速的提取所需的数据是检索人员需要掌握的,同时也是数据开发这需要不断完善的,在实体名称检索中,除了常见的按照“省市+关键字+行业+组织形式”的规则来命名之外,还存在大量的例外,比如公司名没有使用省市作为开头,又或者在非正式文本里,公司名可能以简写、缩写的方式出现,这直接导致了使用传统的方式来进行的信息解析的召回率不高。
现有的技术方案中,虽然也出现了许多通过双向递归神经网络来解决该问题的方法,但方法较复杂。
发明内容
本发明的目的是:提供一种实体名称分析识别方法,以解决现有技术中至少一技术问题。
实现上述目的的技术方案是:一种实体名称分析识别方法,包括以下步骤,检索词获取步骤,获取输入的实体相关的检索词;数据库生成步骤,根据所述检索词分别生成对应的实体基本信息库和实体舆情信息库;实体全称候选词集生成步骤,定义实体全称的特征词,根据该特征词在实体基本信息库中检索特征词,并对检索到的特征词分析,生成实体全称候选词;实体全称候选词筛选步骤,在实体全称候选词集中,根据自定义特征筛选出有效的实体全称;实体简称候选词集生成步骤,对有效的实体全称进行排列组合,生成实体简称候选词集;实体简称候选词筛选步骤,在实体舆情信息库中检索实体简称候选词集中的每一实体简称候选词,根据检索到的结果进行分析,得到有效的实体简称。
在本发明一较佳实施例中,所述数据库生成步骤包括实体基本信息库生成步骤,根据与实体相关的检索词搜索与该检索词相关的实体基本信息,建立唯一的实体信息集合,并生成实体基本信息库;以及实体舆情信息库生成步骤,根据与实体相关的检索词搜索与该检索词相关的实体舆情信息,建立唯一的实体舆情信息集合,并生成实体舆情信息库。
在本发明一较佳实施例中,所述实体舆情信息库生成步骤包括,利用分词方法、基于停用词库TF-IDF的降维方法及文献相似度计算方法,对实体舆情信息进行筛选,去除重复的实体舆情信息。
在本发明一较佳实施例中,在所述实体全称候选词集生成步骤中,所述特征词为边界词,包括开头词和结尾词,根据边界词在所述实体基本信息库中找出对应的边界词,将开头词、结尾词以及开头次与结尾词之间的词作为实体全称候选词,并生成实体全称候选词集。
在本发明一较佳实施例中,开头词具体设定为国家名称、省份名称、直辖市名称及市名称,结尾词为厂或公司。
在本发明一较佳实施例中,所述自定义特征包括候选词长度特征、候选词中标点符号特征,当某一所述实体全称候选词的候选词长度特征满足预设值,且该实体全称候选词的候选词中无标点符号特征,则该实体全称候选词为有效的实体全称,否则为无效的实体全称。
在本发明一较佳实施例中,所述实体简称候选词集生成步骤包括词组生成步骤,选取有效的实体全称中的字并按照原有的前后顺序重新排列组合,得到词组集合;词组排序步骤,对排列后的词组按照词组长短进行排列,并去除重复的词组,得到实体简称候选词集。
在本发明一较佳实施例中,所述实体简称候选词筛选步骤包括词频计算步骤,在实体舆情信息库中,提取并计算所述实体简称候选词出现的词频;新闻信息条数统计步骤,统计所述实体舆情信息库中的新闻信息条数;比值计算步骤,计算词频与新闻信息条数的比值;比值判断步骤,判断该比值是否达到预设值,若是,则将该实体简称候选词作为有效的实体简称。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中云开源数据技术(上海)有限公司,未经中云开源数据技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810136345.8/2.html,转载请声明来源钻瓜专利网。





