[发明专利]一种文本上下文中实体地址信息的提取方法无效
| 申请号: | 200710120548.X | 申请日: | 2007-08-21 |
| 公开(公告)号: | CN101110081A | 公开(公告)日: | 2008-01-23 |
| 发明(设计)人: | 罗英伟;汪小林;周晓鲁;许卓群 | 申请(专利权)人: | 北京大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京君尚知识产权代理事务所 | 代理人: | 余长江 |
| 地址: | 100871*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 上下 文中 实体 地址 信息 提取 方法 | ||
技术领域
本发明涉及文本信息提取领域,尤其涉及文本上下文中实体地址信息的提取方法。
背景技术
从文本中找出描述性信息并联系到给定实体上,形成对实体的完整描述,是文本信息提取领域的一项重要任务。因为机构、事件、人物等实体一般都会有其地址描述信息,这种信息对于实体的定位有着非常重要的作用。如何有效地从文本上下文中提取出与给定实体空间相关的地址描述信息是一项必要且具有很强实用性的工作。然而在文本上下文中提取与实体相关的地址描述信息上,目前在国内还很少有相关的研究工作,并且缺乏有效的提取方法。常见的做法是根据一定的模板匹配规则来实现地址的提取,比如将文本中关键词“地址:”后面的文字作为实体的地址描述信息提取出来。但是这种方法只能处理文本中固定格式的地址,对于模板以外格式的地址描述信息就无法抽取。
发明的内容
本发明的目的是针对与实体相关的地址信息提取方法上的不足,根据文本上下文中地址信息分布和结构上的特殊性,基于统计的手段,提出了一种文本上下文中实体地址信息的提取方法,本发明通过计算文本上下文中的地址与实体空间相关度从而确定实体的地址信息。采用该方法可以从文本上下文中找出与用户输入的实体名称最空间相关的地址描述信息,进而帮助用户定位。
为了发现与实体空间相关的地址信息在文本上下文中的分布规律,我们以最常见的网页文本为例,对网页文本中实体名称及其上下文中的地址分布进行了调查和统计分析。我们随机选取了公司机构、餐饮酒店、娱乐休闲、地产楼盘大厦四大类共42个地理实体名称作为样本。对于每个实体名称,我们通过搜索引擎得到一部分包含它的网页,并将这些网页作为样本数据集。然后对样本数据集中实体名称及其上下文中的地址分布情况进行人工的统计与分析:首先记录每个地址到离它最近的实体名称的距离,即间隔的字数;然后再人工判断该地址是否与实体在空间上相邻。
样本数据集一共包含1490个网页(每个实体名称对应的网页从一二十个到三百多个不等),我们从中提取出了10931个地址,其中与实体位置相关的地址(空间相关地址)有793个,无关地址(空间不相关地址)有10138个,它们与实体名称之间的文字距离分布如图1所示。因为距离实体名称200个字以上的空间不相关地址有7000个以上,在图1中并没有将它们显示出来。
从图1可以看出,整体上说,空间相关地址的出现频率是与它到实体名称的距离基本上是成反比的;而空间不相关地址的出现情况正好相反,与它到实体名称的距离成正比。通过对样本数据集的分析,可以得出以下三个结论:一是,在实体名称的上下文中距离它越近的地址信息,越有可能是与实体位置相邻的地址(空间相关的地址);二是,实体名称的上下文选取范围越小,能正确描述实体位置的地址所占比例越大;三是,在给定上下文范围中,出现次数越多的地址,越有可能是与实体位置相关的地址。
所以我们认为:文本中距离实体名称越近、出现次数越多的地址与实体的空间相关度也比较高,而距离远、出现次数少的地址其空间相关度则比较低。计算相关度的时候,我们根据空间相关地址的出现概率设计了一个减函数f(x)来计算地址的空间相关度。f(x)的设计方法是:地址与实体名称之间的距离x越小时,f(x)越大。f(x)的值应该与距离x处空间相关地址的出现概率P有关,即f(x)与P成正比。在实际计算时,可以选取一个近似的减函数来代替f(x),如倒数函数(1/x)或幂函数(ax,a<1)等。
如果一个网页中同一个地址出现多次,则将每一个的空间相关度累加起来作为这个地址的总体空间相关度。
将所有文本中同一地址的总体空间相关度累加起来,就得到了该地址与给定实体的综合空间相关度。
最后,将所有从文本上下文中识别的地址,按照其与给定实体的综合空间相关度大小进行排列,选择其中综合空间相关度最大的几个地址,推荐给用户。
在本发明中,地址识别采用的是常用的基于地名词典的匹配方法(昝红英,《基于实体属性的中文网页检索研究》,北京大学博士论文,2004)。地址信息往往具有一定的区域性,在本发明方法中,地名词典是针对特定的区域建立的,其中包含了该区域的基本的地名词汇。为了更好地利用地名词典进行地址识别,我们根据地名词汇所描述的空间范围不同,为每一个地名词汇给予了不同的级别,如“北京市”为1级,“海淀区”为2级,“中关园”为3级,等等。地名词典的建立以及地名词汇的分级确定,是通过人工完成的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710120548.X/2.html,转载请声明来源钻瓜专利网。





