[发明专利]利用二次互信息的中文文本术语抽取方法有效

申请号：	201610868390.3	申请日：	2016-09-29
公开（公告）号：	CN106445921B	公开（公告）日：	2019-05-07
发明（设计）人：	罗森林;陈倩柔;潘丽敏;吴舟婷	申请（专利权）人：	北京理工大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	暂无信息	代理人：	暂无信息
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种利用二次互信息的中文文本术语抽取方法，属于计算机科学与自然语言处理技术。本发明首先基于核心词前后扩展，结合二次互信息、词频、词长和词性特征，将核心词扩展成多个候选术语，然后根据术语间的嵌套关系、词长、词频特征去除候选集中的冗余术语并对术语进行打分排序。本发明综合考虑了术语的语言规则和统计特征，提高了术语抽取的准确性。
搜索关键词：	利用二次互信中文文本术语抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种利用二次互信息的中文文本术语抽取方法，所述方法具体包括以下步骤：步骤1，对中文文本进行预处理；步骤1.1，对文本进行分词和词性标注；步骤1.2，将文本中的噪声字符替换成截断符号；步骤2，构建核心词集，根据词性标注结果，将具有名词词性且词频大于1的词作为核心词，存入核心词集中；步骤3，从核心词集中的第一个核心词开始，依次对核心词进行扩展生成候选术语；步骤3.1，从文本开始遍历，定位核心词向前扩展，特殊处理遇到连字符的情况；步骤3.2，在向前扩展的基础上，继续向后扩展；步骤3.3，计算由该核心词扩展生产的候选术语的字数是否大于2，如果满足条件，并且该候选术语不在已有的候选集合中，则将其加入候选集合，否则继续下一个步骤；步骤3.4，查找核心词出现的下一个位置，重复步骤3.1至3.3中的前后扩展过程，生成新的候选术语；步骤3.5，当文本内容遍历完成时，则继续扩展核心词集中的下一个核心词，重复步骤3.1至3.4，直到核心词集中的核心词都扩展完成为止；步骤4，对候选集合中术语进行打分排序，选取前m个作为最终术语；步骤4.1，将候选术语在文本中出现的次数设为候选术语的初始分值；步骤4.2，将候选术语集合中冗余的候选术语打分为‑1；步骤4.3，结合术语中词语个数特征，重新计算候选术语分值；步骤4.4，去除分值小于零的候选术语，将剩余的候选术语按分值高低排序，选择前m个术语作为最终术语，其中，m取值范围为1‑10。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京理工大学，未经北京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610868390.3/，转载请声明来源钻瓜专利网。

上一篇：利用句义结构特征的句子相似度计算方法
下一篇：确定多媒体资源的标题的方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]利用二次互信息的中文文本术语抽取方法有效

专利文献下载