[发明专利]一种中文企业名实体精准识别二次匹配方法有效
| 申请号: | 202010410620.8 | 申请日: | 2020-05-15 |
| 公开(公告)号: | CN111597304B | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 刘建国;李仁德;郭强;王梓懿;马皓添 | 申请(专利权)人: | 上海财经大学 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/295;G06F40/30 |
| 代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
| 地址: | 200433 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 中文 企业 实体 精准 识别 二次 匹配 方法 | ||
本发明提供了一种中文企业名实体精准识别二次匹配方法,通过一种二次匹配的方法来从公众提到的多个实体中识别出精确的目标实体。通过BiLSTM‑CRF模型从公众舆论中提取潜在实体并通过TF‑IDF通过特征词提取特征词。其次,通过Jaro‑Winkler距离算法在潜在实体和工商企业名录之间实现第一次匹配。然后,二次识别需要构建一个行业特征词词典,根据与行业特征字典匹配的特征词的数量来识别精确实体。实验证明,本发明最高关联率和准确率分别为0.93和0.95,比仅使用一次匹配过程的准确率提到约30%。
技术领域
本发明涉及文本识别技术领域,具体涉及一种中文企业名实体精准识别二次匹配方法。
背景技术
公众舆论通常包含指向社会认知的特定实体关键信息。实体识别是信息检索与自然语言处理的核心技术之一。传统的信息检索与自然语言处理技术已经能够准确识别中文名称实体,但是非规范的公众表达往往涉及多个实体,混淆了真正目标指向的对象。
针对信息检索技术,中国专利申请CN201910129259.9公开了一种通讯录联系人的企业名称自动补全的方法。中国专利申请CN201511016095.7公开了一种数据检索及检索结果呈现方法和系统,其中方法包括:基于获取的企业名称作为关键字在诉讼案件资源库中进行匹配,以得到至少一个匹配企业,并将匹配企业确立为目标企业。中国专利申请CN201810508600.7提供了一种猎头招聘信息获取方法和系统响应于猎头公司网站检索信息,将行业按照检索频次的高低由高到低排列;获取检索频次在预设频次范围的行业的企业名单;按照企业名单获取各招聘网站的企业招聘信息,获取未在招聘网站上发布招聘信息的企业内部网站的招聘信息;按照具有招聘信息的企业名单,获取各大招聘网站上与在预设频次范围的行业相关的求职者简历;分析求职者简历与企业招聘信息之间的匹配度,将简历与企业招聘信息进行存储;推送合作意向与合作要求给具有招聘要求的企业。
信息检索技术解决的是检索名称与实体名称的一一对应关系问题。已有的方法的新颖性体现在技术应用领域的创新,还缺少在一对多、多对多的关系中识别出唯一的一对一关系技术。
针对自然语言处理技术,与数据库检索相关的有:中国专利申请CN201810717283.X公开了一种互联网用户所属企业的识别方法、装置和终端,所述方法包括:获取用于接入无线访问接入点的服务集标识符,根据服务集标识符和无线访问接入点的物理地址筛选出企业类无线网络;构建企业信息库,并在企业信息库中提取企业的实体特征;计算企业类无线网络和企业的实体特征之间的相似度,以建立企业类无线网络和企业之间的第一映射关系;获取目标用户使用无线访问接入点的数据信息,以建立无线访问接入点与所述目标用户的第二映射关系;根据第一映射关系和第二映射关系生成所述目标用户所属企业的识别结果。中国专利申请CN201810121667.5提出一种企业实体的识别方法、装置、计算机设备及存储介质,其中,方法包括:采集舆情文本进行分词处理,得到分词结果;根据所述分词结果进行企业全称识别,获取所述舆情文本中包括的第一企业全称;根据所述分词结果进行企业简称识别,获取所述舆情文本中包括的第一企业简称;将识别出的所述第一企业全称和所述第一企业简称确定为企业实体的名称。通过该方法,能够从网络舆情文本中提取出企业实体,提高企业实体识别的准确率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海财经大学,未经上海财经大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010410620.8/2.html,转载请声明来源钻瓜专利网。





