[发明专利]一种基于社团划分的无监督复合短语识别方法在审
申请号: | 201710018100.0 | 申请日: | 2017-01-10 |
公开(公告)号: | CN106897264A | 公开(公告)日: | 2017-06-27 |
发明(设计)人: | 柳厅文;闫旸;李全刚;亚静;王玉斌;时金桥;郭莉 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙)11200 | 代理人: | 邱晓锋 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 社团 划分 监督 复合 短语 识别 方法 | ||
技术领域
本发明属于信息技术领域,具体涉及一种基于社团划分的无监督复合短语识别方法。
背景技术
随着多科学研究的逐步深入,现今学术界和研究者发表大量的研究成果呈海量爆炸性增长。如何自动化收集、整合、分析这些工作成为了学术界和工业界关注的问题。包括论文、书籍、技术报告、专利的题目、科技项目名称等,这一类短语在这里统称为复合短语。如何高效的从各类网络语料中抽取需要的科技复合名词实体,是自动化进行学术信息抽取、知识产权保护、科技资源数据库在线建设与维护等诸多应用的基础。
传统意义上的命名实体作为是自然语言处理的基本任务抽取的对象,主要包括人名、地名、组织机构名、数字、计量单位等专有名词。这些命名实体具有长度相对稳定、结构规范、命名规则同意的有利特点,这使得传统的命名实体识别系统的F1-measure往往能达到90%以上,几乎接近人类正常识别水平。而科技类名词短语不同于人名和地名。科技类名词往往内部结构复杂,内部包含嵌套的科技名词实体。而且科技类名词短语纷繁复杂,词语的出现与否本身具有极大的稀疏性,内部实体之间相互组合的冗余度低。这类词法结构导致识别该类命名实体的难度较大。这使得通过词语本身隐式马尔科夫输入的方法不可行。由于复合短语相对于普通的命名实体(人名、地名、机构名)词语本身词法组成更加复杂,传统的纯手工角色标注容易导致标注错误,而且传统方法依赖于手工标注数据,费事费力。
发明内容
本发明的目的在于提供无监督的复合短语自动识别方法,为解决科技类短语手工标注数据费时费力的困难以及传统的有监督方法效果较差的问题,针对科技类名词短语数据稀疏、冗余度低的特点,本发明提出了一种基于社团划分的无监督复合短语的高效识别方法。
本发明采用的技术方案如下:
一种基于社团划分的无监督复合短语识别方法,其步骤包括:
1)采用词性标注工具对输入的语料进行词性标注和分词;
2)生成科技复合短语的上下文模板,并通过所述上下文模板对分词后的语料进行科技复合短语的预提取;
3)将预提取后的文本中的分词序列映射到有序的社团图结构,然后按照分词之间的权重将前后具有紧密联系的词语划分到一个社团分段中;
4)计算各个社团分段的模块度,并求解不同社团分段的组合的模块度,将整个输入文本的模块度之和最大化;
5)验证各社团分段是否包含科技复合短语的特征词,以实现科技复合短语的最终识别。
进一步地,步骤2)根据科技复合短语的频繁上下文特性,采用基于LDA自动生成模板的方法来生成所述上下文模板。
进一步地,步骤3)所述分词之间的权重包括特殊符号权重、维基百科权重以及词性权重。
进一步地,步骤4)通过动态规划求解不同社团分段的组合的模块度。
进一步地,步骤5)采用最小集合覆盖的方法来产生特征词集合,进而利用特征词集合进行所述验证。
本发明的关键点包括两个方面:
(1)针对设置对科技类复合名词短语自身的特点,通过将输入序列映射到有序的社团图模型的,并通过模块度最大化的切分,将候选科技复合短语切分出来。
(2)根据复合短语特征词中富含特征词这一重要特性,采用了前一阶段的分段是否包含特征词来实现候选科技复合短语的最终识别。本发明采用了最小集合覆盖的思想,来产生特征词集合。
本发明的有益效果如下:
本发明提供了一种基于社团划分的无监督复合短语的识别方法,相比于传统的有监督方法,只需少量标注语料,便可以自动识别科技类复合短语。本发明便于在线部署应用,是一种高效的科技类复合短语识别方法。
附图说明
图1是命名实体识别处理流程图。
图2是单词图分割例子图。
图3是二元运算计算示意图。
图4是参数u在NSTPA语料上对查准率、查全率、F1测度的影响曲线。
图5是参数u在WPATENT语料上对查准率、查全率、F1测度的影响曲线。
图6是参数v在NSTPA语料上对查准率、查全率、F1测度的影响曲线。
图7是参数v在WPATENT语料上对查准率、查全率、F1测度的影响曲线。
图8是滑动窗口大小在NSTPA语料上对查准率、查全率、F1测度的影响曲线。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710018100.0/2.html,转载请声明来源钻瓜专利网。