[发明专利]利用二次互信息的中文文本术语抽取方法有效

专利信息
申请号: 201610868390.3 申请日: 2016-09-29
公开(公告)号: CN106445921B 公开(公告)日: 2019-05-07
发明(设计)人: 罗森林;陈倩柔;潘丽敏;吴舟婷 申请(专利权)人: 北京理工大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 暂无信息 代理人: 暂无信息
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种利用二次互信息的中文文本术语抽取方法,属于计算机科学与自然语言处理技术。本发明首先基于核心词前后扩展,结合二次互信息、词频、词长和词性特征,将核心词扩展成多个候选术语,然后根据术语间的嵌套关系、词长、词频特征去除候选集中的冗余术语并对术语进行打分排序。本发明综合考虑了术语的语言规则和统计特征,提高了术语抽取的准确性。
搜索关键词: 利用 二次 互信 中文 文本 术语 抽取 方法
【主权项】:
1.一种利用二次互信息的中文文本术语抽取方法,所述方法具体包括以下步骤:步骤1,对中文文本进行预处理;步骤1.1,对文本进行分词和词性标注;步骤1.2,将文本中的噪声字符替换成截断符号;步骤2,构建核心词集,根据词性标注结果,将具有名词词性且词频大于1的词作为核心词,存入核心词集中;步骤3,从核心词集中的第一个核心词开始,依次对核心词进行扩展生成候选术语;步骤3.1,从文本开始遍历,定位核心词向前扩展,特殊处理遇到连字符的情况;步骤3.2,在向前扩展的基础上,继续向后扩展;步骤3.3,计算由该核心词扩展生产的候选术语的字数是否大于2,如果满足条件,并且该候选术语不在已有的候选集合中,则将其加入候选集合,否则继续下一个步骤;步骤3.4,查找核心词出现的下一个位置,重复步骤3.1至3.3中的前后扩展过程,生成新的候选术语;步骤3.5,当文本内容遍历完成时,则继续扩展核心词集中的下一个核心词,重复步骤3.1至3.4,直到核心词集中的核心词都扩展完成为止;步骤4,对候选集合中术语进行打分排序,选取前m个作为最终术语;步骤4.1,将候选术语在文本中出现的次数设为候选术语的初始分值;步骤4.2,将候选术语集合中冗余的候选术语打分为‑1;步骤4.3,结合术语中词语个数特征,重新计算候选术语分值;步骤4.4,去除分值小于零的候选术语,将剩余的候选术语按分值高低排序,选择前m个术语作为最终术语,其中,m取值范围为1‑10。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610868390.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top