[发明专利]从文本中抽取关键词的方法和装置有效
申请号: | 201210187676.7 | 申请日: | 2012-06-08 |
公开(公告)号: | CN103473217A | 公开(公告)日: | 2013-12-25 |
发明(设计)人: | 刘建毅;刘正阳;谭银燕 | 申请(专利权)人: | 华为技术有限公司;北京邮电大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 刘芳 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 抽取 关键词 方法 装置 | ||
技术领域
本发明涉及网络技术,尤其涉及一种从文本中抽取关键词的方法和装置。
背景技术
在网站向用户显示网页的过程中,需要从文本中抽取关键词,根据关键词确定网页显示的内容。
目前,采用基于图形的关键词抽取方法,将文本中的词语作为节点,以词语间的关系为边,将词语相连接,构成一个无权网络图形,通过挖掘该网络中的特殊节点来发现关键词。例如,在一种基于图形的关键词抽取方法中,将词语作为节点,根据词语在一定窗口内的共现关系,将词语相连接构成一个无权网络图形,并证明该网络具有小世界特征,并且,定义对文本主题起重要影响作用的词语以及根本概念为关键词,通过挖掘文本网络的中心节点获得关键词,其中,文本网络的中心节点为对图形中小团体的紧密度起重要作用的节点。在另一种基于图形的关键词抽取方法中,将文本中的词语作为边的节点,通过词语共现定义节点间的权重,构建无向赋权图,并定义中心函数来评价一个节点在图中的重要程度,以其中重要的节点作为关键词。
上述现有的基于图形的关键词抽取方法,将文本中的每个词语均作为节点,因此所构成的网络的规模大,在抽取关键词的过程中,需要进行大量的计算,从而导致效率低下。
发明内容
本发明的第一个方面是提供一种从文本中抽取关键词的方法,用以解决现有技术中的缺陷,提高抽取关键词的效率。
本发明的另一个方面是提供一种从文本中抽取关键词的装置,用以解决现有技术中的缺陷,提高抽取关键词的效率。
本发明的第一个方面是提供一种从文本中抽取关键词的方法,包括:
对文本进行分词处理;
为分词处理获得的词语标注语义类编号;
以所述语义类编号作为节点,组成同义词网络;
从所述同义词网络中选择节点作为关键词。
本发明的另一个方面是提供一种从文本中抽取关键词的装置,包括:
分词单元,用于对文本进行分词处理;
语义类标注单元,用于为分词处理获得的词语标注语义类编号;
组网单元,用于以所述语义类编号作为节点,组成同义词网络;
关键词单元,用于从所述同义词网络中选择节点作为关键词。
由上述发明内容可见,在对文本进行分词处理获得词语后,先为词语标注语义类编号,在组成网络时,以语义类编号作为节点,组成同义词网络。由于该网络以语义类编号作为节点,因此精简了网络结构,缩小了网络规模,减小了从文本中抽取关键词所需的计算量,从而提高了抽取关键词的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一的从文本中抽取关键词的方法的流程图;
图2为本发明实施例二的从文本中抽取关键词的方法的流程图;
图3为本发明实施例三的同义词网络的示意图;
图4为本发明实施例四的从文本中抽取关键词的装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一的从文本中抽取关键词的方法的流程图。如图1所示,该方法包括如下过程。
步骤101:对文本进行分词处理。
步骤102:为分词处理获得的词语标注语义类编号。
步骤103:以语义类编号作为节点,组成同义词网络。
步骤104:从同义词网络中选择节点作为关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司;北京邮电大学,未经华为技术有限公司;北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210187676.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于邮件信息判定邮件语种的方法
- 下一篇:多波束测深精度检定系统