[发明专利]从文本中抽取关键词的方法和装置有效
申请号: | 201210187676.7 | 申请日: | 2012-06-08 |
公开(公告)号: | CN103473217A | 公开(公告)日: | 2013-12-25 |
发明(设计)人: | 刘建毅;刘正阳;谭银燕 | 申请(专利权)人: | 华为技术有限公司;北京邮电大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 刘芳 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 抽取 关键词 方法 装置 | ||
1.一种从文本中抽取关键词的方法,其特征在于,包括:
对文本进行分词处理;
为分词处理获得的词语标注语义类编号;
以所述语义类编号作为节点,组成同义词网络;
从所述同义词网络中选择节点作为关键词。
2.根据权利要求1所述的方法,其特征在于,所述以所述语义类编号作为节点,组成同义词网络包括:
按照所述文本的顺序,从所述分词处理获得的词语中读取一个目标词语;
获取所述目标词语的词频信息和出现位置信息;
判断同义词网络中是否存在所述目标词语的语义类编号构成的节点;如果存在,更新同义词网络中的所述目标词语的语义类编号构成节点的词频信息和出现位置信息;如果不存在,将所述目标词语的语义类编号作为节点添加到同义词网络中,生成该节点的词频信息和出现位置信息;
判断所述分词处理获得的词语中是否存在未读取的词语;如果不存在,为所述同义词网络中的节点建立无向连接;如果存在,返回所述按照所述文本的顺序,从所述分词处理获得的词语中读取一个目标词语的步骤。
3.根据权利要求2所述的方法,其特征在于,
所述在从所述分词处理获得的词语中读取一个目标词语之后,还包括:分别统计所述目标词语与所述分词处理获得的每个其它词语的连接次数,以所述连接次数分别作为所述目标词语对应的节点与所述每个其它词语对应的节点之间的边的权重;
或者,在将所述目标词语的语义类编号作为节点添加到同义词网络中之后,还包括:分别统计所述目标词语的语义类编号对应的节点与每个其它节点的连接次数,以所述连接次数分别作为所述目标词语的语义类编号对应的节点与所述每个其它节点之间的边的权重;
或者,在判断为所述分词处理获得的词语中不存在未读取的词语之后,还包括:分别统计所述目标词语的语义类编号对应的节点与每个其它节点的连接次数,以所述连接次数分别作为所述目标词语的语义类编号对应的节点与所述每个其它节点之间的边的权重。
4.根据权利要求3所述的方法,其特征在于,所述为所述同义词网络中的节点建立无向连接包括:
读取所述同义词网络中的一个节点;
按照所述节点在文本中的位置,根据所述节点与其它节点之间的边的权重,将所述节点与在预设的窗口距离内的其它节点建立无向连接;
判断同义词网络中是否存在未读取的节点;
如果是,返回执行读取所述同义词网络中的一个节点的步骤;
否则,结束以所述语义类编号作为节点,组成同义词网络的流程。
5.根据权利要求2至4中任意一项所述的方法,其特征在于,
所述以所述语义类编号作为节点,组成同义词网络之前,还包括:为所述分词处理获得的词语标注词性信息;
所述按照所述文本的顺序,从所述分词处理获得的词语中读取一个目标词语之后,所述判断同义词网络中是否存在所述目标词语的语义类编号构成的节点之前,还包括:根据所述目标词语的词性信息,判断所述目标词语是否为名词;如果所述目标词语是名词,执行所述判断同义词网络中是否存在所述目标词语的语义类编号构成的节点的步骤;如果所述目标词语不是名词,执行所述判断所述分词处理获得的词语中是否存在未读取的词语的步骤。
6.根据权利要求1至4中任意一项所述的方法,其特征在于,所述从所述同义词网络中选择节点作为关键词包括:
根据所述同义词网络的节点的连接关系,计算节点的权重;
按照权重由重到轻的顺序为所述同义词网络的节点排序,确定排序在前的预设个数的节点作为关键词。
7.一种从文本中抽取关键词的装置,其特征在于,包括:
分词单元,用于对文本进行分词处理;
语义类标注单元,用于为分词处理获得的词语标注语义类编号;
组网单元,用于以所述语义类编号作为节点,组成同义词网络;
关键词单元,用于从所述同义词网络中选择节点作为关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司;北京邮电大学,未经华为技术有限公司;北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210187676.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于邮件信息判定邮件语种的方法
- 下一篇:多波束测深精度检定系统