[发明专利]一种自然语言地址描述的自动识别方法在审
申请号: | 201810247442.4 | 申请日: | 2018-03-23 |
公开(公告)号: | CN108563631A | 公开(公告)日: | 2018-09-21 |
发明(设计)人: | 李俊;颜平;徐忠建;朱必亮;冯建亮 | 申请(专利权)人: | 江苏速度信息科技股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 南京正联知识产权代理有限公司 32243 | 代理人: | 陆中丹 |
地址: | 210000 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 匹配识别 自然语言 输出结果 自动识别 分词 自然语言处理 状态机模型 词性标注 方法识别 句法结构 模式识别 社会大众 语言模式 加载 句法 语句 句子 引擎 词语 检索 出行 节约 语言 | ||
1.一种自然语言地址描述的自动识别方法,其特征在于,包括以下步骤:
(1)开始检索识别,加载自然语言处理引擎,获取自然语言地址描述的句子或词语,句法或词的语言模式提取;然后对提取的语言模进行匹配识别,看是否有模式可以匹配识别该地址描述;
(2)如有能匹配识别该地址描述的模式,则进行模式识别,并输出结果;
(3)如果没有能匹配识别该地址描述的模式则通过建立切词分图来识别;建立切图分词,根据有限状态机模型,识别句法结构,进行地址描述的识别,并输出结果。
2.根据权利要求1所述的自然语言地址描述的自动识别方法,其特征在于,所述步骤(3)中通过建立切词分图来识别的步骤具体包括如下步骤:
1)建立切词分图:把候选词中的每个字串当作节点,把每个字串前后次序当作弧段,建立切词分图;
2)搜索最优路径:从地址描述切词分图中搜索最优路径,选取总弧段最小的路径就是地址语句最佳的切分模式;即根据指定的模型从微观序列中快速有效地选择最优的状态序列,从而进行地址描述的识别,并输出结果。
3.根据权利要求2所述的自然语言地址描述的自动识别方法,其特征在于,所述步骤1)中弧段的大小根据弧段大小公式来计算切词分图中的弧段的大小,其中Wa、bW表示弧段连接的左右字符串,a表示左字串最右侧的字,b表示右字串最左侧的字,MI’表示切分词图中的互信息,E′L表示切分词图中的左熵,E′R表示切分词图中的右熵。
4.根据权利要求2所述的自然语言地址描述的自动识别方法,其特征在于,所述步骤(1)中的语言模式的提取是从自然语言地址描述的语法中提取一部分,或者可以是几种成分部分的交融,作为模式;其中首先分析自然语言的语法、语义规则,并从中提取出不同的语言模式。
5.根据权利要求2所述的自然语言地址描述的自动识别方法,其特征在于,所述步骤1)建立切词分图中采用将地名当作专有名词或者通用名词,其余词语归纳为指示词和限定词两类。
6.根据权利要求2所述的自然语言地址描述的自动识别方法,其特征在于,所述步骤2)搜索最优路径中是基于有限状态机的句法结构来识别,每个有限状态机都有一个开始状态、一个终止状态以及若干个中间状态;每条弧段可以表示一个状态转移到下一个状态的条件;利用有限状态机识别地址描述语句的句法结构是一个词类匹配的遍历过程。
7.一种自然语言地址描述的自动识别系统,其特征在于,包括控制模块、数据收发模块、数据管理模块和数据分析模块,所述数据收发模块、数据管理模块和数据分析模块均与所述控制模块形成双向传输连接;所述数据收发模块负责接收采集地址描述数据,以及发出系统自动识别后的地址描述;所述数据管理模块用于提供匹配的模式查询、修改、增加以及常用指示词和限定词查询、修改、增加;所述数据分析模块用于提取语言模式并根据匹配的模式和切词分图来识别地址描述语句。
8.根据权利要求1所述的自然语言地址描述的自动识别系统,其特征在于,所述数据分析模块包括提取模块、分析匹配模块和确定模块;所述提取模块用于自然语言地址描述的句子或词语的语言模式提取;所述分析匹配模块用于根据匹配的模式或切词分图来识别自然地址描述;所述确定模块用于确定匹配结果;所述数据管理模块包括搜索模块、停止语言识别模块和矫正模块,所述搜索模块用于启动自然语言处理引擎,提供搜索栏;所述停止语言识别模块用于暂停识别;所述矫正模块用于矫正自然语言地址描述。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏速度信息科技股份有限公司,未经江苏速度信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810247442.4/1.html,转载请声明来源钻瓜专利网。