[发明专利]一种自然语言表达动态交通信息的时空融合方法无效
申请号: | 200810115577.1 | 申请日: | 2008-06-25 |
公开(公告)号: | CN101308487A | 公开(公告)日: | 2008-11-19 |
发明(设计)人: | 陆锋;陈传彬 | 申请(专利权)人: | 中国科学院地理科学与资源研究所 |
主分类号: | G06F17/20 | 分类号: | G06F17/20;G06F17/30 |
代理公司: | 北京科迪生专利代理有限责任公司 | 代理人: | 贾玉忠;卢纪 |
地址: | 100101北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自然 语言表达 动态 交通 信息 时空 融合 方法 | ||
1、一种自然语言表达动态交通信息的时空融合方法,其特征在于步骤如下:
(1)对通过实时获取的、以中文自然语言形式描述的交通信息进行数据预处理,消除错误或无效信息;
(2)将预处理结果作为输入参数,以改进最大匹配算法切分出其中的关键词汇,再使用地址定位词汇重构法处理地址定位词汇,并按照时间、地点、方向、偏移量、事件的结构组织各个关键词汇,形式化表达动态交通信息;
所述的改进最大匹配算法如下:
A.首先按照信息融合应用的特点组织专业词库和数据结构,并将专业词汇导入在所需要的数据结构中,专业词库包括中文库和拼音库;所述的中文词库又包括地址库、方向库、事件库和附属定位词库;地址库包含了某一个特定区域中所有地物的名称;方向库存储了交通事件中方向信息的各种表达;事件库存储了交通事件中状态信息的多样描述;附属定位词库存储了与地址词汇结合使用、指向最终定位地址、但本身不能独立定位的词汇;拼音库存储了与中文词库中各词汇相对应的拼音描述,包括地址拼音库、方向拼音库、事件拼音库和附属定位词拼音库;
B.然后以交通信息作为改进最大匹配算法的输入,切分出交通关键词汇,具体切分步骤如下:
a.选取交通信息中第一个字C1作为当前字串,在所述的中文词库中查找C1是否存在;
b.若中文词库中不存在C1,则将C1转换为拼音,并且在拼音词库中查找以C1为拼音的词是否存在;
c.若拼音词库中不存在C1,则切分C1,标记C1为非词汇,从C2开始下一次分词;
d.若拼音词库中存在C1,取下一个字C2,当前字串赋为C1C2;
e.在拼音词库中进一步判断以当前字串C1C2为拼音的词是否存在;
f.不存在,则切分当前字串前一位字串C1,记录C1所隶属词库的标志,分词结束,转入步骤q;
g.否则,根据成词标记判断当前字串C1C2是否成词;若成词,保存C1C2表达,转入步骤h;不成词,直接转入步骤h;
h.不断循环取下一个字Ci,判断拼音词库中以当前字串C1C2…Ci为前缀的拼音词是否存在;
i.若不存在,获取最近一次能成词的表达C1C2…Ci-k的拼音,返回C1C2…Ci-k拼音所对应的标准中文词汇,并记录C1C2…Ci-k所隶属词库的标记;
j.否则,将当前字串设为C1C2…Ci,转入步骤g;
k.若中文词库中存在C1,判断C1是否成词;若成词,保存C1表达后取C2,不成词,直接取C2,在中文词库中进一步判断词库中以C1C2为前缀的词是否存在;
l.不存在,则转入步骤e;
m.否则,根据成词标记判断当前字串C1C2是否成词;若成词,保存C1C2表达,转入步骤n;不成词,直接转入步骤n;
n.不断循环取下一个字Ci,判断词库中以C1C2…Ci为前缀的词是否存在;
o.若不存在,将当前字串设为C1C2…Ci,转入h;
p.否则,判断当前字串C1C2…Ci是否成词;若成词,保存C1C2…Ci表达,转入n;不成词,直接转入n;
q.从Ci-k+1开始下一次分词,直至判断到句子中最后一个字Cn;
C.对来源信息中未能成功切分的字符串进行数字判断处理,一次性提取出其中的数字型信息,以此作为偏移量;
所述的地址定位词汇重构法如下:
A.确定判断交通信息所隶属的基准要素类型的方法,以交通信息中定位地址名的结尾字特征为基础,通过枚举方式推断信息所隶属的基准要素类型,基准要素类型即为道路、桥梁、路口和POI四大类,若定位地址名为定位地址词组合,则取组合中关键定位词的结尾字;所述的道路表现为单一定位地址词形式,以路、里、条、街、胡同、道、段、巷、环、环东路、环西路、环南路、环北路或东侧路、西侧路、南侧路、北侧路结尾;所述的桥梁表现为单一定位地址词或定位地址词组合形式,以桥、桥上或桥下结尾;所述的路口存在道路起终点路口和中间路口两种形式,道路起终点路口表现为单一定位地址词或定位地址词组合形式,以东口、西口、南口、北口结尾;道路中间路口表现为定位地址词组合形式,又细分为普通路口、环路路口和特殊路口,普通路口以路、里、条、街、胡同、道、段、巷结尾;环路路口以环、环东路、环西路、环南路、环北路结尾;特殊路口以东侧路、西侧路、南侧路、北侧路结尾;中间路口还存在以“路口”结尾形式,此时需要获取位于“路口”之前的信息表达,根据三种中间路口的结尾进一步判断路口类型;POI点表现为单一定位地址词或定位地址词组合形式,除上述几种类型结尾外,其它都默认为POI点;
B.按照地址库中切分出词汇的顺序,取位于方向词汇之前的所有地址词汇,若无方向词汇,则取第一个事件词汇前的所有地址词汇;
C.根据地址词汇的个数分别处理,从而重新组织地址词汇,形成符合信息融合要求的定位地址结构,组织方法为:
若只存在一个地址词汇A1A2…An,则取A1A2…An为承载交通事件的定位地址名;
若存在A1A2…An和B1B2…Bm两个地址词,需进一步判断,若两个地址之间存在到、往、至这三个指向动词中的一个,则前一个词汇A1A2…An为承载交通事件起点的定位地址名,后一个词汇B1B2…Bm为承载交通事件终点的定位地址名;否则,两个地址名本质上只体现为一个单独定位地址,此时,采用后一个词汇B1B2…Bm作为关键定位词,A1A2…An作为辅助定位词,构成关键定位词,辅助定位词形式的定位地址词组合,即B1B2…Bm,A1A2…An,并以此作为定位地址名;
若存在A1A2…An、B1B2…Bm和C1C2…Ck三个地址词,则第一个词汇A1A2…An为辅助定位词,第二个词汇B1B2…Bm为承载事件起点的关键定位词,第三个词汇C1C2…Ck为承载事件终点的关键定位词,此时进一步分别构成B1B2…Bm,A1A2…An和C1C2…Ck,A1A2…An两组的地址定位词组合,并以此作为交通事件起点和终点的定位地址名;
若多于三个地址词,则取前三个词汇,按照三个地址词的处理方法进行处理;
D.根据交通信息所隶属的基准要素类型的方法对以获取的定位地址名处理,若是单一地址词汇形式,则直接判断并记录所对应的要素类型;若是地址定位词组合形式,则取组合中关键定位词的结尾字进行判断,并记录所对应的要素类型;若是道路起终点路口、POI点类型,则地址定位词组合定位效果可由组合中关键定位词表达,辅助定位词成为冗余词汇;此时地址定位词组合关键定位词,辅助定位词转变为单独关键定位词表达;
E.进一步根据附属定位词的切分顺序,获取位于附属定位词前一位的定位地址名,再将二者构成同一组词汇表达,即关键定位词,附属定位词或关键定位词,辅助定位词,附属定位词,形成最终定位地址词汇;
(3)对经过形式化的动态交通信息,利用面向信息融合的时空匹配方法,实现动态交通信息与底层路网信息的时空融合;
所述的面向信息融合的时空匹配方法如下:
A.将已形式化表达的交通信息作为参数,输入时效性处理单元进行时效处理
以当前时间作为时间参照基准,设置一个针对实时交通信息有效作用范围的时间阈值,建立时间作用效应约束集,剔除时间上位于约束集之外的交通信息,确保来源信息的时效性;
B.将时间有效的交通信息传送到路网信息关联单元处理进行关联处理
经过时效性检验的交通信息,需要与路网信息进行匹配,将交通信息影响反映到路网上,此过程由路网信息关联单元完成;它利用字符串匹配方法对交通信息中的定位地址词汇与道路属性信息进行匹配,建立二者之间的关联关系;字符串匹配分为精确匹配和模糊匹配,精确匹配要求两个对比字串信息表达完全一致,模糊匹配可处理两个字串间缺字现象,采用数据库模糊查询技术予以实现;字符串匹配中,不同形式的交通信息定位地址词汇所选取的匹配对象和匹配方法不同:
若交通信息以单一的关键定位词形式描述,则直接将关键定位词与道路属性信息匹配;
若交通信息以关键定位词,辅助定位词形式描述,则根据组合的先后顺序逐一取定位词与道路属性信息匹配;
若交通信息以关键定位词,附属定位词形式描述,则将关键定位词直接与道路属性信息匹配,并记录附属定位词;
若交通信息以关键定位词,辅助定位词,附属定位词形式描述,则根据先关键定位词后辅助定位词的顺序逐一取词与道路属性信息匹配,并记录附属定位词;
C.关联上的交通信息进一步输入定位基准查询单元进行查询
根据不同的基准要素类型,获取路网中所对应的路幅或起始和终止拓扑节点;若是道路,根据道路名直接查找路网中对应的路幅,进而直接进入空间距离换算单元处理;若是道路中间路口,应在路网数据库中遍历两条相交道路的所有节点,以它们的公共节点作为定位节点集;若是道路起终点,应根据空间坐标排列顺序搜索相应方向上的坐标极值节点,以此作为定位节点集;若是桥梁,单独定位时应在路网数据库中遍历符合桥梁名描述的所有节点,以此作为定位节点集,与道路联合定位时,应在路网数据库中遍历桥梁和相应道路的所有节点,以它们的公共节点作为定位节点集;若是POI点,取与POI点距离最近的路幅和反向路幅的起点和终点作为定位节点集;此时,若存在附属定位词,应以所对应的空间坐标为基础,根据附属定位词的方位搜索最近的路幅,取路幅和反向路幅的起点和终点作为定位节点集;在此基础上进一步进行方向约束判断,即以方向信息作为约束条件,去除定位节点集中不符合方向要求的节点,以获得交通事件的真实起始和终止节点;若不存在附属定位词,则直接进行方向约束判断;
D.进一步将定位节点信息输入启发式路幅搜索单元进行路幅搜索
在路网连通关系支持下,以路幅搜索方式提取起点到终点间的路幅,以道路名和方向作为启发信息,依据先道路名后方向的原则搜索,以保证路幅搜索的正确性和有效性;
E.在路幅搜索的基础上,进入空间距离换算单元处理进行空间距离换算完成动态交通信息与路网空间信息之间的时空匹配和融合
以偏移量和路幅长度为基础,换算路网空间坐标体系下路幅绝对距离和交通信息中线性参考体系下相对偏移距离,从而将交通信息更为准确地定位到路幅上的某个点或某一段上,最终成功完成动态交通信息与路网空间信息之间的时空匹配和融合。
2、根据权利要求1所述的一种自然语言表达动态交通信息的时空融合方法,其特征在于:所述的中文词库的存储数据结构采用多层模式,第一层存储单字,第二层存储以第一层的字串为前缀的双字或者双字词,第三层存储了以第二层的字串为前缀的三字或者三字词,以此类推;所述的拼音词库的数据结构与中文词库一致,但是最小存储单元是单个字的拼音而不是中文单字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院地理科学与资源研究所,未经中国科学院地理科学与资源研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810115577.1/1.html,转载请声明来源钻瓜专利网。