[发明专利]一种自然语言地址描述的自动识别方法在审
申请号: | 201810247442.4 | 申请日: | 2018-03-23 |
公开(公告)号: | CN108563631A | 公开(公告)日: | 2018-09-21 |
发明(设计)人: | 李俊;颜平;徐忠建;朱必亮;冯建亮 | 申请(专利权)人: | 江苏速度信息科技股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 南京正联知识产权代理有限公司 32243 | 代理人: | 陆中丹 |
地址: | 210000 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 匹配识别 自然语言 输出结果 自动识别 分词 自然语言处理 状态机模型 词性标注 方法识别 句法结构 模式识别 社会大众 语言模式 加载 句法 语句 句子 引擎 词语 检索 出行 节约 语言 | ||
本发明涉及一种自然语言地址描述的自动识别方法,包括以下步骤:(1)开始检索识别,加载自然语言处理引擎,获取自然语言地址描述的句子或词语,句法或词的语言模式提取;然后对提取的语言模进行匹配识别,看是否有模式可以匹配识别该地址描述;(2)如有能匹配识别该地址描述的模式,则进行模式识别,并输出结果;(3)如果没有能匹配识别该地址描述的模式则通过建立切词分图来识别;建立切图分词,根据有限状态机模型,识别句法结构,进行地址描述的识别,并输出结果;该方法识别率高,识别速度快;对于单句,以及复杂句的识别非常精确;能够完成地址描述语句的自动分词和词性标注,方便用户找到具体地点,节约了社会大众的出行时间。
技术领域
本发明涉及自然语言地址描述的识别技术领域和有限状态机技术领域、构造切词分图技术,尤其涉及一种自然语言地址的自动识别方法。
背景技术
自然语言是人们进行通信和交流的主要工具,在互联网与大数据时代,存在海量易获取的中文自然语言地址描述数据。它们体现了公众描述空间位置的语言和认知习惯,蕴含着丰富的空间信息。利用文本挖掘技术,自动识别自然语言地址描述中的词语、句法及语义信息,从而提炼出现频率较高的地名和常用的描述模式,对于城市地标的选取、意象地图的构建和空间位置的交际等都具有重要的研究意义和实用价值。
目前,随着自然语言的处理越来越趋向于实用化和工程化,我们必须提供一种高效准确的方法来识别自然语言。
因此,提出了一种基于模式匹配的自然语言处理方法和分词构造法。在模式匹配不能识别自然语言地址描述时,为了自动识别这种情况的自然语言地址描述数据,提供能表示常见地址描述模式的基于词性的有限状态机模型,并利用有限状态机匹配和识别地址描述语句的句法结构。
发明内容
本发明要解决的技术问题是,提供一种为了自动识别这种情况的自然语言地址描述数据,提供能表示常见地址描述模式的基于词性的有限状态机模型,并利用有限状态机匹配和识别地址描述语句的句法结构的自然语言地址描述的方法。
为了解决上述技术问题,本发明采用的技术方案是:该自然语言地址的自动识别方法,包括以下步骤:
(1)开始检索识别,加载自然语言处理引擎,获取自然语言地址描述的句子或词语,句法或词的语言模式提取;然后对提取的语言模进行匹配识别,看是否有模式可以匹配识别该地址描述;
(2)如有能匹配识别该地址描述的模式,则进行模式识别,并输出结果;
(3)如果没有能匹配识别该地址描述的模式则通过建立切词分图来识别;建立切图分词,根据有限状态机模型,识别句法结构,进行地址描述的识别,并输出结果。采用上述技术方案,采集地址描述语句输入到自然语言地址描述自动识别系统中,系统对输入的地址描述进行分析,通过模式匹配和切词分图对地址描述进行判断,输出自动识别后的地址描述到前端;通过提取模式来识别地址描述语句,如果模式识别中没有匹配的,则再通过切词分图来识别,两种方式相互辅助,识别率高,识别速度快;对于单句,以及复杂句的识别非常精确;不依赖于地名词典中的中文地址统计分词算法,能够完成地址描述语句的自动分词和词性标注,方便用户找到具体地点,节约了社会大众的出行时间;方便提取出更有价值的空间信息,比如城市中地标性建筑、城市的意象化表达和空间位置描述等。
本发明进一步改进在于,所述步骤(3)中通过建立切词分图来识别的步骤具体包括如下步骤:
1)建立切词分图:把候选词中的每个字串当作节点,把每个字串前后次序当作弧段,建立切词分图;
2)搜索最优路径:从地址描述切词分图中搜索最优路径,选取总弧段最小的路径就是地址语句最佳的切分模式;即根据指定的模型从微观序列中快速有效地选择最优的状态序列,从而进行地址描述的识别,并输出结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏速度信息科技股份有限公司,未经江苏速度信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810247442.4/2.html,转载请声明来源钻瓜专利网。