[发明专利]提取关键字的方法无效
申请号: | 201010608118.4 | 申请日: | 2010-12-27 |
公开(公告)号: | CN102541910A | 公开(公告)日: | 2012-07-04 |
发明(设计)人: | 王宵栋;张丽晓 | 申请(专利权)人: | 上海杉达学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海集信知识产权代理有限公司 31254 | 代理人: | 张坤明 |
地址: | 201209 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 提取 关键字 方法 | ||
技术领域
本发明涉及数据检索技术领域,尤其涉及一种提取关键字的方法。
背景技术
关键词(Keyword)是指在制作使用索引时所用到的词汇,关键词搜索是网络搜索索引主要方法之一。例如一本书的书名或部分书名、副标题、作者名都可以作为本书的关键词用于检索。现在大部分的图书及网上检索都是用关键词检索的形式。关键词的内容可以是:人名、网站、新闻、小说、软件、游戏、星座、工作、购物、论文等等。例如,可以搜索“windows”、“世博会”、“NBA篮球”等关键词,可以输入一个,也可以输入两个、三个、四个,甚至可以输入一句话。例如,您可以搜索“风景”、“mp3下载”、“蓦然回首,那人却在灯火阑珊处”。
简而言之,关键字就是某篇文章,某本书的主要内容。关键字虽然字数不多,但是它的存在方便我们很直观的去了解某篇文章,某本书的大致内容。举一个简短的例子,比如这篇文章:
北京时间3月29日凌晨,西甲联赛第29轮皇马在主场3-2击败德比对手马德里竞技,完成赛季双杀。开场不久皇马旧将雷耶斯反戈一击,下半时阿隆索首先扳平比分,之后又助攻阿贝罗阿反超,随后伊瓜因打入联赛第23球,阿根廷人在射手榜上距离梅西仅有2球差距,此后弗兰罚中点球无力回天,皇马逆转豪取11连胜,继续以净胜球优势压过巴萨排名榜首。
上文是一篇简单的体育报道,它的关键字可以归结为“西甲皇马3-2马竞”。对于我们来说,通过关键字了解文章内容是不是要比阅读完整篇文章来的更快速呢?有了关键字,可以很方便的确定是否需要阅读该文章,这对于提高阅读效率有着很大的帮助。对于不同长度的文章,关键字的长度也各有不同,但它们起到的作用都是相同的。
关键字在诸多的领域都有应用,在网络上,有搜索引擎和文本分类技术。在现实生活中,书店中都有很多的应用。可以不夸张的说,关键字已经融入到了生活的每一个角落,成为了生活中不可或缺的一部分。
既然关键字这么实用,那相应的关键字提取技术也逐渐发展起来。起初,关键字的提取都是人工的进行,就是人为的阅读之后总结出它的关键字,这种方法的准确率很高,但效率却非常的低。近来随着全球网络的发展,搜索引擎的壮大,以及每天最新资讯的更新,想要再人为的提取关键字已经不可行了。如何通过计算机去提取关键字已经成为了研究重点。计算机和人脑不同,它无法自行理解文章的内容,所以确立一个合适的算法来提取关键字就显得十分重要了。
发明内容
本发明旨在提出一种用于提取关键字的方法。
根据本发明,提出一种提取关键字的方法,从一段文字中提取关键字,该方法包括:
分词步骤,分词步骤将一段文字划分成单词;
停用词消除步骤,从分词步骤中划分出的单词中去除停用词;
词性还原步骤,将取出停用词后的单词的词性进行还原,该词性还原步骤使用词干分析算法将单词还原成词干原型;
关键字确定步骤,以词干原型为基础,在一段文字中确定每一个词干原型出现的频率,基于出现的频率确定关键字。
分词步骤包括从一段文字中提取空格、标点符号以及字符串作为分词的标记。
停用词消除步骤包括查找一停用词表,分词步骤中划分出的单词中存在于停用词表中的单词作为停用词去除。
关键字确定步骤基于密度聚类模式实现,包括:
TF/IDF值计算步骤,在一段文字中计算每一个词干原型的TF/IDF值;
词频过滤步骤,设定一词频阈值,选择词频大于该词频阈值的词干原型作为候选关键字;
共现度计算步骤,在候选关键字中计算候选关键字之间的词共现度,生成词共现矩阵;
聚类步骤,基于词共现矩阵进行候选关键字聚类,为每一个聚类计算TF/IDF平均值;
关键字确定步骤,选择具有最高的TF/IDF平均值得聚类中的词干原型作为关键字。
关键字确定步骤也可以基于非高频词查找实现,包括:
预处理步骤,对一段文字进行预处理,去除其中的停用词;
词频统计步骤,设定一词频阈值,选择词频大于该词频阈值的词干原型作为高频词;
构图步骤,设定一关联度阈值,以高频词作为顶点,关联度大于关联度阀值的词干原型作为边集构图;
划分步骤,基于聚类系数对构图进行划分,划分成数个子图;
关键字确定步骤,计算每一个子图的特征路径长度,选取具有最短特征路径长度的子图中的词干原型作为关键字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海杉达学院,未经上海杉达学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010608118.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型不锈钢管自动切割下料扩口一体机
- 下一篇:倒角刀