[发明专利]一种语义要素提取方法及装置在审
申请号: | 201910477051.6 | 申请日: | 2019-06-03 |
公开(公告)号: | CN110362656A | 公开(公告)日: | 2019-10-22 |
发明(设计)人: | 杜剑文;李辉权 | 申请(专利权)人: | 广东幽澜机器人科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 谢泳祥 |
地址: | 510000 广东省广州市天河区体育西路*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语义要素 知识库 会话消息 应答语句 检索 语音 时态 相似度计算 二次加工 快速检索 实时获取 文本消息 文字信息 用户体验 构建 语句 抽取 文本 服务 | ||
本发明公开了一种语义要素提取方法及装置,通过实时获取语音或文字信息构建动词的时态相似度计算模型快速、准确的抽取语义要素,通过将该语义要素在知识库中检索能够检索到正确的应答语句,在音译文本或者语音质量或者其他情况导致的会话消息数据质量较差的情况下,对作为“二次加工”的文本消息或者较差质量的会话消息数据,能够准确地提取出语义要素的语句以供在知识库中快速检索到准确的应答语句,具有较高的服务质量与用户体验。
技术领域
本公开涉及信息处理技术领域,具体涉及一种语义要素提取方法及装置。
背景技术
智能客服机器人的类型大致分为以文字为介质和以语音智能为介质,以文字为介质的智能客服机器人普遍存在于web网页端及微信公众号端;而以语音智能为介质的智能客服机器人,则以音频流为输入介质,与机器进行理解交互,在电话终端最为广泛。针对这两种交互介质的智能交互,最终都是以标准文本的形式,进行自然语言处理及理解的,而由于“音译文本”的质量参次,对作为“二次加工”的文本消息的自然语言处理,往往是难以达到较高的服务质量的。目前,现有的智能客服技术通过利用依存分析的开放式中文实体关系抽取语义要素和基于依存分析的中文兼类词处理,这种“二次加工”的文本消息难以准确的提取出语义要素,并将该语义要素在知识库中检索能够检索到到正确的应答语句,服务质量均难以提升。
发明内容
本公开提供一种语义要素提取方法及装置,通过实时获取语音或文字信息构建动词的时态相似度计算模型快速、准确的抽取语义要素,通过将该语义要素在知识库中检索能够检索到正确的应答语句。
为了实现上述目的,根据本公开的一方面,提供一种语义要素提取方法,所述方法包括以下步骤:
步骤1,将样本中能够枚举的关键要素枚举归纳统一的关键要素标签;
步骤2,将样本中不能枚举的关键要素通过分词区分词性得到关键要素标签;
步骤3,将关键要素标签进行标签化替换为简化关键要素;
步骤4,将相应的标签替换后的样本关联到对应的意图得到意图表达语句;
步骤5,对意图表达语句进行分词处理,将语句的简化关键要素标签化替换为关键要素标签;
步骤6,进入学习引擎匹配识别获取用户意图;
步骤7,根据用户意图提取关键要素标签的数据。
进一步地,在步骤1中,将样本中能够枚举的关键要素枚举归纳统一的关键要素标签的方法为,预先建立的属性归纳模型是通过对样本进行归纳总结从而能够预测关键词所属属性的模型,可以包括字典模型、规则模型和其他模型等,其中字典模型可以包括地址字典模型(地址模型又可细分为省份字典模型和城市字典模型)、品牌字典模型等;规则模型可以包括身份证号规则模型、列车号规则模型等;其他模型可以包括酒店名模型、网吧名模型、餐厅名模型和姓名模型等。假设关键词是:“170cm”、“肥胖”、“北京”,那么通过属性归纳模型得到的与“170cm”对应的属性可以是“身高”,与“肥胖”对应的属性可以是“体型”,与“北京”对应的属性可以是“地址”和“路径”。
根据预先建立的标签组合与意图的对应关系,利用获得的标签获取目标意图。
具体的,意图是终端支持的查询意图,可以是通过人的属性去查找人、通过事件的属性去查找人。在查询场景下,意图的种类不多,因此可以利用该特点穷举意图并生成标签与意图的对应关系。
需要说明的是,用户输入的信息反映了用户的意图,而根据用户输入的信息获取了关键词,因此根据获得的关键词可以获取用户的意图。
步骤104、根据获得的关键词和目标意图生成查询语句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东幽澜机器人科技有限公司,未经广东幽澜机器人科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910477051.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种潜在流行性元素发觉方法
- 下一篇:一种获取APP画像标签的计算设备