[发明专利]一种中文句子中并列信息提取方法及装置有效

专利信息
申请号: 201310315217.7 申请日: 2013-07-25
公开(公告)号: CN103440252B 公开(公告)日: 2016-11-16
发明(设计)人: 熊文;晋耀红;朱筠 申请(专利权)人: 北京师范大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京三聚阳光知识产权代理有限公司 11250 代理人: 寇海侠
地址: 100875 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 中文 句子 并列 信息 提取 方法 装置
【权利要求书】:

1.一种中文句子中并列信息提取方法,其特征在于,包括:

S1:对所述中文句子进行处理,得到所述中文句子中的所有分词单位构成的分词单位序列集合;

S2:在所述分词单位序列集合中筛选出在所述中文句子中出现频率大于一的构成所述分词单位的短语、词语、语素和概念构成并列信息候选,其中,所述短语是由语法上能够搭配的词组合起来没有句调的语言单位;所述词语是由语素组成的最小的造句单位;所述语素是最小的语音、语义结合体;所述概念指所述分词单位所对应的概念类别;所述并列信息候选包括并列信息的词形或概念类别以及所述并列信息在中文句子中出现的位置和在中文句子中所占的长度; 

S3:加载并列信息标注规则集;

S4:从所述并列信息候选中查找满足所述并列信息标注规则集中的并列信息标注规则的所述并列信息候选并标注在所述分词单位序列集合中,形成带并列信息标记的标注文本;

S5:对所述带并列信息标记的标注文本按照标记提取出范围最大的并列信息,得到构成所述中文句子的最终的并列信息并输出。

2.根据权利要求1所述的中文句子中并列信息提取方法,其特征在于,所述步骤S1中进一步包括:

使用中文停止词表、分词词表按前向最大长度词语分割,得到所述前向最大长度词语构成的所述分词单位;

对所述中文句子中的所述分词单位中的数字和英语字母进行合并的如下步骤: 

合并所述分词单位中的单个且连续的阿拉伯数字或中文数字生成数词短语;合并所述分词单位中的单个且连续的阿拉伯数字和英语字母生成英文专名;合并所述分词单位中的单个且连续的英语字母生成英文专名。

3.根据权利要求1或2所述的中文句子中并列信息提取方法,其特征在于,所述步骤S2进一步包括除概念外的并列信息候选的生成步骤和概念的并列信息候选的生成步骤,其中,除概念外的并列信息候选的生成步骤如下:

S21:使用停止词表过滤所述分词单位中的高频停止词,并过滤掉所述分词单位的标点符号;

S22:使用成词语素表计算所述分词单位的四类并列词形的出现频率,所述四类并列词形包括短语、词语、语素和语素与词语首字或尾字;

S23:对出现频率大于一的所述四类并列词形,记录其在中文句子中开始的位置及所占的长度并存储到数据结构中,作为所述并列信息侯选;

概念的并列信息候选的生成步骤如下:

S25:从概念层次网络词语知识库中加载所述分词单位序列集合对应的概念类别序列集合; 

S26:根据所述分词单位序列集合对应的所述概念类别序列集合中出现频率大于一的概念,记录其在中文句子中开始的位置及所占的长度并存储到数据结构中,生成概念的并列信息侯选。

4.根据权利要求3所述的中文句子中并列信息提取方法,其特征在于,所述步骤S23中的所述数据结构为映射表,其键是所述四类并列词形,键对应的值是一个动态数组,所述动态数组的每一项用于记录每一类所述并列词形在中文句子中的开始位置及其所占的长度;所述步骤S26中的所述数据结构为映射表,其键是概念类别,键对应的值是一个动态数组,所述动态数组的每一项用于记录每一类所述概念在中文句子中的开始位置及其所占的长度。

5.根据权利要求1-4任一所述的中文句子中并列信息提取方法,其特征在于,所述步骤S3和S4中的并列信息标注规则为产生式规则,进一步包括如下步骤:

S41:检测当前所述中文句子是否匹配所述并列信息标注规则集中规则左边的约束;

S42:如果匹配成功,根据匹配成功时所指定的分词单位的位置,对所述分词单位序列集合进行标记。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京师范大学,未经北京师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310315217.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top