[发明专利]一种采用人工智能技术自动提取关键字的方法无效

专利信息
申请号: 200910157017.7 申请日: 2009-12-31
公开(公告)号: CN101719129A 公开(公告)日: 2010-06-02
发明(设计)人: 徐颂华;杨少辉;刘智满 申请(专利权)人: 浙江大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 张法高
地址: 310027*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 采用 人工智能 技术 自动 提取 关键字 方法
【权利要求书】:

1.一种采用人工智能技术自动提取关键字的方法,其过程在于包括以下步骤:

1)通过搜索维基百科获得与文本相关的背景知识,对于给定的文本,利用一个图像算法检测文本中重要的句子,然后对获得的句子除去无意义的单词,并且把剩下的词返回原始形态,最后的结果就是与文本对应的查询,它包含了文本中的重要信息,一个全文检索引擎利用该查询搜索维基百科,返回的结果能提供该文本的背景知识;

2)分析返回的维基百科文章的结构,对于每一个返回的维基百科文章,分析它的结构,提取导入链接,导出链接,种类和infobox四种不同的结构信息,并且组成相应的集合;

3)通过使用维基百科的背景知识产生单词的特征,根据文章的体裁信息产生单词的特征,利用文章本身的信息来产生单词的特征,共同组成一个特征空间;

4)对产生的单词特征空间进行机器学习,使用支持向量机算法对上面的特征空间进行机器学习,通过训练得到一个模型,并利用这个模型进行关键字的自动提取。

2.根据权利要求1所述的一种采用人工智能技术自动提取关键字的方法,其特征在于所述的步骤1):

a)把文本中的句子构建一个图,图中的点代表句子,连接点的边代表句子间的联系,边的权重由两个句子的相似程度决定,利用这个图检测文本中的重要句子;

b)通过计算出的每一个关键节点都代表一个关键句,根据无意义单词列表除去句子中的无意义单词;

c)把处理完的单词返回原始形态,然后利用剩下的单词组成对应于文章的查询;

d)把产生的查询输入到一个全文检索引擎Zettair,该引擎在维基百科上运行,根据与查询的相关程度返回维基百科中的文章,并按照相关程度排序,获得一个维基百科中的相关文章组成的集合。

3.根据权利要求1所述的一种采用人工智能技术自动提取关键字的方法,其特征在于所述的步骤2)为:

e)对于集合中的每一个文章,提取出其中的导入链接,产生一个导入链接集合,导入链接把维基百科其它位置的文章链接到当前文章,利用MediaWikiAPI获得某个文章的所有导入链接集合。

f)对于集合中的每一个文章,提取出其中的导出链接,并组成一个导出链接集合,导出链接把当前文章指向维基百科其它位置,导出链接在文章的文本中以超链接的形式存在,通过提取文章中所有的超链接获得该文章的导出链接集合;

g)对每一个文章提取它的种类信息,并组成一个种类集合;

h)维基百科文章中的infobox是文章中重要信息的一个总结,对每一个含有infobox的文章提取infobox中的参数值,组成一个infobox参数值集合,同时扔掉infobox种的参数名信息。

4.根据权利要求1所述的一种采用人工智能技术自动提取关键字的方法,其特征在于所述的步骤3)为:

i)对于维基百科文章的导入链接结构中的每一个链接,利用WordNet比较它与候选单词的相似程度,同时考虑文章在全文检索引擎的返回得分,计算出这个候选单词的导入链接特征;

j)对于维基百科文章的导出链接结构中的每一个链接,利用WordNet比较它与候选单词的相似程度,同时考虑文章在全文检索引擎的返回得分,计算出这个候选单词的导出链接特征;

k)对于维基百科文章的种类集合的每一个元素,利用维基百科的种类图来计算它与候选单词之间的相似程度,同时考虑到该文章在全文检索引擎的得分,计算出该候选单词的种类特征;

l)对于维基百科文章的infobox参数值集合中的每一个元素,利用WordNet计算其与候选单词之间的相似程度,同时考虑到该文章在全文检索引擎的得分,计算出该候选单词的infobox特征;

m)提取包括外表特征,字符特征,结构特征在内的文章体裁特征,然后测量两个文章的题材相似程度;

n)使用一个包含很多体裁文章的文章集合,给定一个文章,从集合中找出体裁相似程度最近的300个文章,提取它们的标题,除去其中无意义的单词,对每一个这样的单词,计算单词的出现次数,并且计算单词与文章的题材相似程度;

o)同时使用一些广泛使用的单词的特征,单词在文章中出现的频率,单词在文章中的位置,单词是否指代特殊的人名或地名,单词长度以及单词是否出现在总结的句子中。

5.根据权利要求1所述的一种采用人工智能技术自动提取关键字的方法,其特征在于所述的步骤4)为:

p)使用支持向量机算法在上面产生的文本特征空间上运行,把候选单词分为关键词和非关键词;

q)在使用支持向量机算法进行训练时,出现在标题中的单词作为正面的例子,其它的单词作为反面的例子,然后训练一个支持向量模型,利用这个模型进行关键字的提取;

r)根据在机器学习中的决定值的大小,利用一个参数靠控制提取关键词的数量,对提取出的关键字进行排序,排序高的候选单词成为关键字的可能性越高。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200910157017.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top