[发明专利]一种基于自学习规则的项目名实体识别方法及系统在审
| 申请号: | 201510271752.6 | 申请日: | 2015-05-25 |
| 公开(公告)号: | CN104965818A | 公开(公告)日: | 2015-10-07 |
| 发明(设计)人: | 柳厅文;时金桥;张洋;闫旸;郭莉;张浩亮;亚静 | 申请(专利权)人: | 中国科学院信息工程研究所 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 余长江 |
| 地址: | 100093 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 自学习 规则 项目 实体 识别 方法 系统 | ||
技术领域
本发明涉及文本处理、自然语言处理等领域,具体涉及一种基于自学习规则的项目名实体识别方法及系统。
背景技术
命名实体识别是自然语言处理的基本问题。在自然语言处理中,命名实体主要包括实体名,如国家名、组织机构名、地名、人名、缩写词,以及一些数字表达式,如货币值、百分数、时间表达式等。
由于英文命名实体的识别只需考虑词本身的特征而不涉及分词问题,因此实现难度相对较低。根据MUC以及ACE的评测结果,英文命名实体识别的准确率、召回率、F1值目前大多可以达到90%左右。中文命名实体识别起步较晚。20世纪90年代初期开始,国内一些学者对中文命名实体(如地名、人名、组织机构名等)识别进行了一些研究。例如,孙茂松等在国内比较早地开始进行中文人名识别,他们主要采用统计的方法计算姓氏和人名用字概率;张小衡等对中文机构名称进行识别与分析,主要采用人工规则对高校名进行了实验研究;Intel中国研究中心的Zhang等在ACL2000上演示了他们开发的一个抽取中文命名实体以及这些实体间相互关系的信息抽取系统,该系统利用基于记忆的学习(Memory Based Learning,MBL)算法获取规则,用以抽取命名实体及它们之间的关系。虽然目前在人名、地名、机构名的识别上有了较好的效果,但是对与特定种类的命名实体识别,目前的研究仍然处于空白阶段。
经典的命名实体识别的算法有隐式马尔科夫、条件随机场、极大熵模型等统计方法。对于传统的统计方法,无法保证所有的命名实体全部被找回检测。
为了实现科技类信息的信息抽取,发展更高准确率及召回率的命名实体识别技术十分必要。
发明内容
本发明提供了一种基于自学习规则的项目名实体识别方法及系统,以词性黑名单和关键词白名单作为规则,并且词性黑名单和关键词白名单的构造完全无需人的参与,可以从训练集中自动学习出来。本发明可以作为传统识别方法的补充,进而可以在原有的基础上提高准确率和召回率。
为了实现上述目的,本发明采用以下技术方案:
一种基于自学习规则的项目名实体识别方法,包括以下步骤:
1)采取多个项目名作为训练集产生词性黑名单和特征词白名单;
2)基于上下文提示信息对待识别文本进行切分;
3)基于词性黑名单对步骤2)切分后的待识别文本进行截断;
4)在步骤3)处理后的待识别文本中,基于特征词白名单确认项目名,获得最终的识别结果。
进一步地,所述词性黑名单是从计算所汉语词性标记集规定的词性中去掉所有的项目名包含的词性得到的。
进一步地,所述特征词白名单是对项目名集合进行词性标注时,得到的使所有项目名都包含有特征词集合中的特征词的最小特征词集合。
进一步地,一个特征词包含在科技项目名中,则称该特征词覆盖项目名,如果特征词集合中所有的特征词可以覆盖所有的项目名,则称该集合对项目名全覆盖。
进一步地,上述最小特征词集合通过以下方法得到:
对训练集中的项目名进行分词,得到所有的词性集合,求得词性中对项目名集合的一个最小覆盖集,该集合定义为最小特征词集合。
进一步地,步骤2)中,以正则表达式的形式,检测项目名的上下文提示信息,将待识别文本中正则表达式命中的句子进行切分。
一种基于自学习规则的项目名实体识别系统,包括:
语料训练模块,用于对项目名进行训练获得词性黑名单和特征词白名单;
文本输入单元,用于输入待识别文本;
文本切分单元,用于根据上下文提示信息对待识别文本进行切分;
文本截断单元,用于根据词性黑名单对文本切分单元切分后的待识别文本进行截断;
文本确认单元,用于根据特征词白名单对文本截断单元得到的项目名进行确认,获得最终的识别结果。
进一步地,所述文本切分单元基于正则表达式检测上下文提示信息,对命中的句子进行切分。
本发明的有益效果如下:
本发明以词性黑名单和关键词白名单作为规则,并且词性黑名单和关键词白名单的构造完全无需人的参与,可以从训练集中自动学习出来。
本发明可以作为传统识别方法的补充,进而可以在原有的基础上提高准确率和召回率。利用本发明的方法我们在1500组测试语料上获得了94.78%准确率,89.19%的召回率和91.9%的F1值。
附图说明
图1是本发明基于自学习规则的项目名实体识别方法的整体流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510271752.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于大数据的观点抽取方法
- 下一篇:一种多接口USB分线器





