[发明专利]一种关键词抽取方法有效
申请号: | 201310316483.1 | 申请日: | 2013-07-25 |
公开(公告)号: | CN103399901A | 公开(公告)日: | 2013-11-20 |
发明(设计)人: | 周进华;熊张亮;胡永;张涛 | 申请(专利权)人: | 三星电子(中国)研发中心;三星电子株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 蒋欢;王琦 |
地址: | 210061 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关键词 抽取 方法 | ||
技术领域
本申请涉及文本处理中的关键词抽取技术领域,特别涉及一种关键词抽取方法。
背景技术
随着计算机和网络技术的发展,数字化的文件正以惊人的速度在疯狂增长。人们每天要花费大量的时间和精力去阅读和查找文件。为了节省时间和提高人们工作的效率,于是原始文档的各种简洁表示,比如摘要和关键词等形式应运而生。
关键词被定义成压缩表示了原始文本重要信息和核心内容的词。人们可以通过它快速了解文本的大致内容,而不需要通读全文。在信息检索中,关键词常被我们用来查找内容相关的文档。此外,关键词在话题探测和跟踪、文本分类和聚类等任务中都有重要的应用。目前,除了形式规范的科技论文提供了关键词外,大部分文档都没有作者或读者分配的关键词。传统的依靠人工去阅读文本,然后抽取关键词的方法在文档数量剧增的今天越来越不能满足实际应用的需要。因此,如何自动抽取关键词成了时下文本处理领域的一个研究热点。
从人工选择关键词的过程可以知道,关键词可以是预定义的类别,也可以是从文本中抽取的反映核心内容和重要信息的词。第一种方法可以看成是一个文本分类的问题,它将现成的文本分配到预定义的一个或几个类别中,从而可以采用文本分类的思路和技术进行关键词的抽取。第二种方法就是本申请所涉及的方法,它从原始文本中抽取反映文档主要内容的词,而不需要预先建立一个相关领域的类别体系。
目前关键词自动抽取的技术可以分为简单统计的方法、语言分析的方法和机器学习的方法。
语言分析的方法采用自然语言处理中词法、句法及语义分析等技术,在对文档进行深入理解的基础上抽取文档中反映其主要内容的词。虽然该类方法有很大的潜力提高抽取的关键词的质量,但是目前自然语言处理技术还在发展过程中,暂时还没有成熟到可以有效应用到关键词抽取的各种场合。
基于机器学习的方法需要提供大规模特定的样例进行学习。不同领域的应用需要采用相应领域的样例,而且训练模型需要花费大量的时间。该类方法对authoring(文本创作)及网页等不确定领域环境中关键词抽取的应用,效果较差。
简单统计的方法不依赖于特定语言和特定领域,仅通过对文本中各种语言单元进行统计分析以自动产生关键词。这种方法简单、快速,几乎可以应用于所有需要关键词的任务中。
在简单统计的方法中,词频和词语共现关系等常被用于关键词的抽取。统计方法tf*idf中的tf就表示词频,它常用于评估一个词对一个文档集或语料库中某个文档的重要性。下面简要介绍现有技术中几种典型的简单统计方法。
Yukio Ohsawa等人在1998年提出的KeyGraph方法利用文档中词间的共现关系构造一个图,图中的每个节点表示一个词项。KeyGraph方法将共现图切割成多个涵盖了作者观点的互相连通的最大子图(簇),然后统计词项和这些簇的关系,并将排名靠前的若干个词返回做关键词。
TextRank是Rada Mihalcea和Paul Tarau在2004年提出的又一个基于图的关键词抽取算法。该算法利用长度为n的窗口中词项的共现关系构建词共现图,然后通过节点的出度、入度及边的权重计算词项的重要性,并选取最重要的若干个词作为文档的关键词。
2004年,Yutaka Matsuo等人采用χ2计算单文本中词项的共现分布对高频词集的偏置程度决定词的重要性。该方法还通过对共现矩阵中高频列的聚类来改善算法的准确性。
Stuart Rose等人在2010年提出的RAKE算法利用词度对词频的比例从文本摘要中抽取关键词。其中,词度为词频和该词的所有共现次数之和。
虽然目前有很多优秀的方法可用于关键词的抽取,特别是基于机器学习的方法和基于语言分析的方法,但是这些方法要么需要带标注的大规模语料用于学习,要么需要复杂的自然语言处理技术对文本进行深入分析,这些要求对许多应用都不可行或很难满足。具体来说,现有技术有如下需要改善的地方:
1.现有基于机器学习和基于语言分析的方法都需要特定语言或领域的知识,对于多语言或多领域的应用,需要针对每种语言或领域单独训练模型或制定语言规则,然而对任何团队来说,在短时间内获取各种语言的语料和领域知识都是一件十分困难的事情。
2.目前简单统计的方法大多是针对摘要等语言表达紧凑的短文进行关键词抽取,这些算法对篇幅较长的文本的处理效果较差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三星电子(中国)研发中心;三星电子株式会社,未经三星电子(中国)研发中心;三星电子株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310316483.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:无刷直流电机的CAN总线控制系统
- 下一篇:电网空间数据智能采集系统