[发明专利]一种采用人工智能技术自动提取关键字的方法无效
申请号: | 200910157017.7 | 申请日: | 2009-12-31 |
公开(公告)号: | CN101719129A | 公开(公告)日: | 2010-06-02 |
发明(设计)人: | 徐颂华;杨少辉;刘智满 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 张法高 |
地址: | 310027*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 采用 人工智能 技术 自动 提取 关键字 方法 | ||
技术领域
本发明涉及数据挖掘以及人工智能领域,尤其涉及一种采用人工智能技术自动提取关键字的方法。
背景技术
已经大量的工作来进行关键字的提取工作。1987年Term-weightingapproaches in automatic text retrieval文章介绍了一种简单的基于单词在文章中出现频率的方法来进行关键字提取。2004年Proceedings ofEMNLP-04杂志(文章标题“Textrank:bringing order into texts”)介绍了使用单词的频率,关键词组的频率以及距离来提取关键字。2006年Proceedings ofWAIM(文章标题“Keywordextraction using support vector machine”)介绍单词频率,单词位置,单词词性,单词间联系来提取关键字。2007年Information Processing and Management杂志(文章标题“Using lexical chains for keyword extraction”)介绍了使用语义链特征进行关键字提取。最近维基百科的知识被用于关键字提取工作中。2007年Proceedings ofCIKM(文章标题“Wikify!:linking documents to encyclopedic knowledge”)介绍使用维基百科的链接结构定义新的单词特征进行关键字提取。2009年Proceedingsof WWW(文章标题“Extracting key terms from noisy and multitheme documents”)介绍使用维基百科的标题集合和链接结构进行关键字提取。
还有大量的工作关于使用来自第三方的知识库。2007年Proceedings ofEMNLP-CoNLL(文章标题“Enhancing single-document summarization bycombining ranket and third-party sources”)提出使用第三方的知识库可以提高在自然语言处理中的算法的性能。2005年Proceedings of IJCAI(文章标题“Featuregeneration for text categoriza-tion using world knowledge”)介绍使用来自OpenDirectory Project的知识产生新的单词特征提高原来的文本分类性能。2006年Document Understanding Conference杂志(文章标题“Query independent sentencescoring approach to duc 2006”)提出利用来自物联网的知识来进行文章的总结。
总而言之,我们观察到的相关工作,一些专注于利用外部知识产生新的单词特征,一些外部知识的来源。
发明内容
本发明的目的是克服现有技术的不足,提供一种采用人工智能技术自动提取关键字的方法。
采用人工智能技术自动提取关键字的方法包括以下步骤:
1)通过搜索维基百科获得与文本相关的背景知识,对于给定的文本,利用一个图像算法检测文本中重要的句子,然后对获得的句子除去无意义的单词,并且把剩下的词返回原始形态,最后的结果就是与文本对应的查询,它包含了文本中的重要信息,一个全文检索引擎利用该查询搜索维基百科,返回的结果能提供该文本的背景知识;
2)分析返回的维基百科文章的结构,对于每一个返回的维基百科文章,分析它的结构,提取导入链接,导出链接,种类和infobox四种不同的结构信息,并且组成相应的集合;
3)通过使用维基百科的背景知识产生单词的特征,根据文章的体裁信息产生单词的特征,利用文章本身的信息来产生单词的特征,共同组成一个特征空间;
4)对产生的单词特征空间进行机器学习,使用支持向量机算法对上面的特征空间进行机器学习,通过训练得到一个模型,并利用这个模型进行关键字的自动提取。
所述的步骤1):
a)把文本中的句子构建一个图,图中的点代表句子,连接点的边代表句子间的联系,边的权重由两个句子的相似程度决定,利用这个图检测文本中的重要句子;
b)通过计算出的每一个关键节点都代表一个关键句,根据无意义单词列表除去句子中的无意义单词;
c)把处理完的单词返回原始形态,然后利用剩下的单词组成对应于文章的查询;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910157017.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种报表数据的处理方法、装置和系统
- 下一篇:光引发剂FMT的生产方法