[发明专利]关键短语提取方法及装置在审
申请号: | 201611154611.7 | 申请日: | 2016-12-14 |
公开(公告)号: | CN108228556A | 公开(公告)日: | 2018-06-29 |
发明(设计)人: | 陈万礼 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 韩建伟;张永明 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 候选短语 关键短语 短语词典 获取目标 目标文本 语料 文本 | ||
1.一种关键短语提取方法,其特征在于,包括:
获取目标文本;
从所述目标文本中提取若干个候选短语,其中,每个候选短语至少包括一个左边词和一个右边词,在同一个候选短语中,左边词位于右边词的左侧,右边词位于左边词的右侧;
根据每个候选短语中左边词和右边词的相互关系,从所述若干个候选短语中提取出一个或者多个含有关键词的候选短语作为关键短语。
2.根据权利要求1所述的方法,其特征在于,每个候选短语中左边词和右边词的相互关系包括以下至少之一:每个候选短语中左边词和右边词之间的互信息,每个候选短语中左边词的右熵,每个候选短语中右边词的左熵。
3.根据权利要求2所述的方法,其特征在于,根据每个候选短语中左边词和右边词的相互关系,从所述若干个候选短语中提取出一个或者多个含有关键词的候选短语作为关键短语包括:
获取每个候选短语中左边词和右边词之间的互信息的值;和/或
获取每个候选短语中左边词的右熵的值;和/或
获取每个候选短语中右边词的左熵的值;
根据所述互信息的值、所述左边词的右熵的值以及所述右边词的左熵的值中的至少一项确定每个候选短语的综合值;
根据每个候选短语的综合值,从所述若干个候选短语中选出满足第一预设条件的候选短语;
从选出的满足所述第一预设条件的候选短语中进一步提取出含有关键词的候选短语作为关键短语。
4.根据权利要求3所述的方法,其特征在于,从选出的满足所述第一预设条件的候选短语中进一步提取出含有关键词的候选短语作为关键短语包括:
判断选出的满足所述第一预设条件的候选短语中的每一个是否包含至少一个所述关键词;
若是,则将选出的满足所述第一预设条件的候选短语中包含了至少一个所述关键词的候选短语作为关键短语。
5.根据权利要求1至4中任一项所述的方法,其特征在于,在根据每个候选短语中左边词和右边词的相互关系,从所述若干个候选短语中提取出一个或者多个含有关键词的候选短语作为关键短语之前,所述方法还包括:
预先从所述目标文本中提取一个或者多个关键词。
6.根据权利要求5所述的方法,其特征在于,预先从所述目标文本中提取一个或者多个关键词包括:
从所述目标文本中提取若干个候选关键词;
根据反映所述若干个候选关键词中各候选关键词的邻接关系的词语特征属性,确定每个候选关键词的综合值;
根据每个候选关键词的综合值,从所述若干个候选关键词中选出满足第二预设条件的候选关键词作为所述目标文本的关键词。
7.根据权利要求6所述的方法,其特征在于,反映所述各候选关键词的邻接关系的词语特征属性包括以下至少之一:覆盖度大小,是否是标题词,词性,词频大小,词语在文本中出现的位置。
8.一种关键短语提取装置,其特征在于,包括:
获取单元,用于获取目标文本;
第一提取单元,用于从所述目标文本中提取若干个候选短语,其中,每个候选短语至少包括一个左边词和一个右边词,在同一个候选短语中,左边词位于右边词的左侧,右边词位于左边词的右侧;
第二提取单元,用于根据每个候选短语中左边词和右边词的相互关系,从所述若干个候选短语中提取出一个或者多个含有关键词的候选短语作为关键短语。
9.根据权利要求8所述的装置,其特征在于,每个候选短语中左边词和右边词的相互关系包括以下至少之一:每个候选短语中左边词和右边词之间的互信息,每个候选短语中左边词的右熵,每个候选短语中右边词的左熵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611154611.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于栏目主题的文章处理方法和装置
- 下一篇:一种序列标注的方法及装置