[发明专利]智能机器人会话文本的地址信息提取方法及装置在审
申请号: | 201810606712.6 | 申请日: | 2018-06-13 |
公开(公告)号: | CN108804425A | 公开(公告)日: | 2018-11-13 |
发明(设计)人: | 杨凯程;张青;蒋宏飞 | 申请(专利权)人: | 北京玄一科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
地址: | 100012 北京市朝阳区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 地址元素 地址模型 拼音 地址信息 拼音文本 文本 抽取 智能机器人 会话 匹配 生成地址 文本转化 中文表述 保存 错别字 比对 遗漏 | ||
本发明实施例公开一种智能机器人会话文本的地址信息提取方法及装置,该提取方法包括:获取待抽取文本;如果待抽取文本中包括至少一个中文表述的地址,则将待抽取文本转化为拼音文本;逐个将地址模型的节点上保存的拼音名与拼音文本进行比对,地址模型包括至少一个节点,在地址模型的节点上,保存有地址元素和与地址元素对应的拼音名,节点的节点等级与地址元素的等级相对应;如果节点上的拼音名与拼音文本匹配,则提取出匹配的拼音名所对应的地址元素;利用提取出的地址元素,以及提取出的地址元素在地址模型中所处的节点的节点等级,生成地址信息。通过这样的方法,可以避免遗漏包含错别字的地址元素,生成完整、准确、规范的地址信息。
技术领域
本发明涉及信息处理与文本挖掘技术领域,具体涉及一种智能机器人会话文本的地址信息提取方法和装置。
背景技术
地址信息是当前最常用的社会公共信息资源,与大众的日常生活紧密相关,同时,也是政府基础行政管理的基础资源。随着互联网技术的发展,越来越多的场景中需要将文本中的地址信息提取出来,以便为后续的分析和利用工作做准备。
现有的从文本中提取地址信息的方法主要是利用预设的识别规则进行匹配的方法,即,构建一定的地址识别规则,例如“xx省xx市xx区”,将地址识别规则与文本进行匹配,然后从文本中提取出与地址识别规则相匹配的文本,就得到了地址信息,例如“浙江省嘉兴市南湖区”。然而,在实际应用中,文本中的地址信息表述形式多样化,并不总以标准正确的形式出现。例如,“浙江省嘉兴市南湖区”中的“嘉”,由于字形复杂,在实际应用中有人习惯将其写成“加”。对于这样在文本中存在发音相同字形不同的错别字的情况,采用现有的利用地址识别规则匹配来提取方法,很容易导致提取出地址信息发生错误,例如提取出“浙江省加兴市南湖区”这样的地址信息。
此外,也有人采用地址模型来提取地址信息。地址模型中通常包括预先建立的多个节点,每个节点存储一个地址元素,例如,“浙江省”、“嘉兴市”、“南湖区”、“河北省”均分别为一个地址元素。然后用地址模型中的地址元素逐一与文本进行匹配,如果能够匹配上,则抽取出匹配的地址元素。再将抽取出的多个地址元素组合,构成一个完整的地址信息。然而在实际生活中,文本中有时会存在错别字,例如,“嘉兴市”中的“嘉”字较为复杂,有人会将其误写为“加”;又例如,将“湖州市”误写为“胡洲市”等。当文本中存在错别字时,由于地址模型中正确的地址元素与文本中的错别字无法匹配,故而无法抽取出相应的地址元素。例如,地址模型中正确的“嘉兴市”与文本中的“加兴市”不匹配,进而只能提取得到“浙江省南湖区”这样存在遗漏的地址信息。
发明内容
为了解决前述的技术问题,本申请提供一种新的地址信息提取方法,利用此方法从文本中提取地址信息,可以提取到更加完整准确的地址信息,减少了遗漏和提取错误的情况,尤其适合应用在处理智能机器人会话文本上。
第一方面,提供一种地址信息提取方法,包括:
获取待抽取文本;
如果待抽取文本中包括至少一个中文表述的地址,则将待抽取文本转化为拼音文本;
逐个将地址模型的节点上保存的拼音名与所述拼音文本进行比对,所述地址模型包括至少一个节点,在所述地址模型的节点上,保存有地址元素和与所述地址元素对应的拼音名,所述节点的节点等级与地址元素的等级相对应;
如果节点上的拼音名与所述拼音文本匹配,则提取出匹配的拼音名所对应的地址元素;
利用提取出的地址元素,以及提取出的地址元素在所述地址模型中所处的节点的节点等级,生成地址信息。
结合第一方面,在第一方面第一种可能的实现方式中,所述利用提取出的地址元素,以及提取出的地址元素在所述地址模型中所处的节点的节点等级,生成地址信息的步骤,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京玄一科技有限公司,未经北京玄一科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810606712.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种语料的训练方法、装置、电子设备和存储介质
- 下一篇:互动翻译系统