[发明专利]一种基于互联网的人物传记自动提取方法无效
| 申请号: | 201110386585.1 | 申请日: | 2011-11-29 |
| 公开(公告)号: | CN102567463A | 公开(公告)日: | 2012-07-11 |
| 发明(设计)人: | 周文;李辉 | 申请(专利权)人: | 上海大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 陆聪明 |
| 地址: | 200444*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 互联网 人物传记 自动 提取 方法 | ||
技术领域
本发明涉及的是一种基于互联网的人物传记自动提取方法,属于信息处理技术领域。
背景技术
随着互联网技术的迅猛发展,大量的信息以电子文档的形式保存在网络服务器上,面对大量的电子信息,如何从网络上这些无序的信息中及时准确的提取、整理,将无序的信息整理成人们感兴趣的信息,已成为一个亟待解决的难题。
人物传记的信息提取,它是从互联网中已有的信息提取出与人物相关的信息,整理成一篇与人物有关的传记。
Schiffman 在2001 年最早提出人物传记概念(Schiffman, Mani, Concepcion, Producing biographical summaries: Combining linguistic knowledge with corpus statistics[C].Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics(ACL'2001).New Brunswick,New Jersey:Association for Computational Linguistics, 2001:450-457),他把多文档摘要技术应用到人物传记抽取,设计了一个多文档人物传记自动摘要系统,利用在语料库上的统计信息和语言学知识,由计算机选择、合并针对新闻中人物的描述语句,从而形成一篇新闻人物的传记,它是将描述一个人物的多个文本的主要信息按一定的压缩比例提炼为一个简短的摘要。
人物传记方法是一种基于多文档的摘要方法的延伸,是将同一主题下的多个文本描述的的信息按一定的压缩比提炼为一个文本的自然语言处理方法。Miller(Miller.WordNet:A lexical database for English[C].Communications of the ACM,2004:39-41)认为不同于多文档摘要方法,传记方法是研究如何通过语义理解生成简洁的人物传记。
超文本标记语言HTML标签过滤工具主要是对网页的超文本标记语言HTML脚本中的标签进行过滤的一种工具,目前此类过滤工具已经很成熟,包括C++、Java、C#等多种主流语言均可以编写此类过滤工具。
爬虫技术是指,从互联网中爬取与预置信息有关系的网页,最后返回网页的链接和正文的一种技术。
美国南加州大学的Zhou、Ticrea 和Hovy在2004 年设计了一个英文的多文档传记摘要系统(Zhou, Ticrea, Hovy.Multi-document biography summarization [C]. Proceedings of EMNLP, 2004,434-441.),该方法首先把句子定义为人物传记和非人物传记,其中人物传记的句子分为9类:个人简历信息、声望、个性、社会关系、受教育程度、国籍、丑闻、私人信息、工作信息和其它,然后,把句子分类,抽取描述人物传记的句子中各类型的句子组成一个人物传记。
目前,Zhou的方法是基于事件的英文人物传记提取方法,上述方法不能用于中文的人物传记提取,没有利用互联网,换言之, 一方面,该方法只能提取英文的人物传记,不能提取中文的人物传记,原因是:上述方法中的英语与中文存在语言上的差异,涉及的语言处理技术、工具有较大的不同。比如,中文需要对文本先进行分词,而英文则不需要进行文本的分词操作;英文需要对词汇进行原形提取,而中文的词汇不存在时态、第三人称单数等变化,不需要进行原形提取。另一方面,现有的方法并不能即时从互联网上信息提取人物传记。
发明内容
鉴于现有的技术存在的问题和不足,本发明的目的在于提供一种基于互联网的人物传记自动提取方法,该方法不仅能从互联网上及时的获取人物信息,而且能从人物信息中提取人物传记。
为了达到上述的目的,本发明采用下述技术方案:
一种基于互联网的人物传记自动提取方法,它包括如下步骤:
步骤1、获取预置的与人物传记相关的网站集合,将该集合以数组的形式保存,该数组记为传记类网站数组A;
步骤2、输入待检索的人物姓名,对传记类网站数组A中的每一个网站分别对该姓名进行搜索,将搜索后得到的每个网站的超文本标记语言HTML脚本保存在数组中,该数组记为传记类网页脚本数组B;
步骤3、采用超文本标记语言HTML标签过滤工具对传记类网页脚本数组B中的各元素进行处理,将各网页的正文保存在传记数组中,该数组记为传记数组C;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110386585.1/2.html,转载请声明来源钻瓜专利网。





