[发明专利]一种语义要素提取方法及装置在审
申请号: | 201910477051.6 | 申请日: | 2019-06-03 |
公开(公告)号: | CN110362656A | 公开(公告)日: | 2019-10-22 |
发明(设计)人: | 杜剑文;李辉权 | 申请(专利权)人: | 广东幽澜机器人科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 谢泳祥 |
地址: | 510000 广东省广州市天河区体育西路*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语义要素 知识库 会话消息 应答语句 检索 语音 时态 相似度计算 二次加工 快速检索 实时获取 文本消息 文字信息 用户体验 构建 语句 抽取 文本 服务 | ||
1.一种语义要素提取方法,其特征在于,所述方法包括以下步骤:
步骤1,机器人客服接收到来自用户客户端的会话消息数据;
步骤2,将会话消息数据进行分词与词性标注出为动词的词性类别;
步骤3,构建动词的时态相似度计算模型;
步骤4,通过时态相似度计算模型提取语义要素。
2.根据权利要求1所述的一种语义要素提取方法,其特征在于,在步骤1中,所述会话消息数据的形式包括以下至少一种:自然语言文字组成的语句、数据链接、语音,如果是数据链接、语音则将数据链接、语音转换为文本形式的语句作为会话消息数据。
3.根据权利要求1所述的一种语义要素提取方法,其特征在于,在步骤2中,将会话消息数据进行分词的方法包括字符串匹配、机械分词、正向最大匹配、逆向最大匹配、双向最大匹配、统计分词、字标注分词任意一种。
4.根据权利要求1所述的一种语义要素提取方法,其特征在于,在步骤2中,将会话消息数据进行词性标注的方法包括viterbi算法、CLAWS算法、VOLSUNGA算法、或基于转换的词类标注POS中任意一种方法标注出名词、动词、动词、形容词、动名词中任意组合。
5.根据权利要求1所述的一种语义要素提取方法,其特征在于,在步骤3中,构建动词的时态相似度计算模型的方法包括以下步骤:
步骤3.1,定义时态动词:
根据动词V定义一个连续时间的时态动词,εv:T×Ω→Ω,其中,T和Ω分别代表连续的时间和状态空间,T×Ω→Ω中三个元素为连续的时间、状态以及状态进化,状态进化即T时间后的状态变化;
根据动词V定义一个离散的时间的时态动词,εν:Z×Ω→Ω,Z为离散的时间,Z×Ω→Ω中三个元素为离散的时间、状态以及状态进化,状态进化即T时间后的状态变化。
步骤3.2,获取时态动词的相似度:
根据动词定义时态动词的进化的函数为εv(t)=(0,Δ0),对于随后的各个观察空间中的动词V=(0,Δx),时态动词的相似度S(V)为:
Δ0为初始的时间,Δx为随后的第x个动词出现的时间,x取值范围为1到p,p为会话消息数据的总量,其中,k>0为常数,k=1;
步骤3.3,构建动词的时态相似度计算模型:
对于观察空间中有多个动词的训练集SV={V1,...,Vp},给出其中一个观察空间的动词Vx=(x0,x0+x),x0为初始的动词位置,x为变化了第x次后的动词位置的偏移量,找出动词V和训练集SV中每个元素Vi(Vi∈Sv)的相似度,首先把每个动词Vi∈Sv表示成含有两个采样点的时间序列的时态动词的进化的函数εVi=(xi0,xi0+Δi0),xi0为初始的时间,Δi0为变化了的动词出现的时间,则构建Vi和Vx间的动词的时态相似度计算模型为,其中,Sc(εVi,Vx)∈[0,1]为Vi和Vx的相似度;其中,其中,k1>0,k2>0为两个常数,例如,k1=1,k2=1,Δi0为初始的时间,Δx为随后的第x个动词出现的时间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东幽澜机器人科技有限公司,未经广东幽澜机器人科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910477051.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种潜在流行性元素发觉方法
- 下一篇:一种获取APP画像标签的计算设备