[发明专利]汉语自然语言对话的语义关联与匹配方法有效
申请号: | 201710593854.9 | 申请日: | 2017-07-20 |
公开(公告)号: | CN107818078B | 公开(公告)日: | 2021-08-17 |
发明(设计)人: | 张宝华 | 申请(专利权)人: | 张宝华 |
主分类号: | G06F40/35 | 分类号: | G06F40/35 |
代理公司: | 西安志帆知识产权代理事务所(普通合伙) 61258 | 代理人: | 侯峰 |
地址: | 710065 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 汉语 自然语言 对话 语义 关联 匹配 方法 | ||
1.一种汉语自然语言对话的语义关联与匹配方法,其特征在于,该方法为:对一次采集的汉语对话语句进行分词和分句,将各分句分词结果以及分词对应的数据库词库中该分词的强度联系数据、激活联系数据情况构建输入语句分词数据结构,在所述输入语句分词数据结构中确定各分句的动词中心词、前中心词、后中心词准确位置,通过所述构建的输入语句分词数据结构对公告信息库中语句记录进行初步匹配筛选,对通过匹配筛选获得的若干条语句记录,确定各语句记录的语义置信度,对各语句记录的语义置信度进行比较,选取语义置信度最大的语句记录作为最佳语义匹配语句并且输出结果,最后,将输入语句字符串信息按对应格式存入公告信息库,作为公告信息库中一条新的语句记录;所述输入语句分词数据结构是每个分词构建对应子结构的集合,每个子结构由三组数据组成,第一组用于存放分词字符串、词性,第二组用于存放第一至第五强度联系词的字符串、词性、强度联系类型、强度联系值,第三组用于存放两词间第一激活联系词对应字符串变量,若该分词为分句中前中心词,则第一激活联系词位置存放后中心词字符串、两词间激活联系类型、动词中心词字符串;若该分词为分句中后中心词,则第一激活联系词位置存放前中心词字符串、两词间激活联系类型、动词中心词字符串;其他情况第一激活联系词对应位置均为空,第三组还用于存放两词间第二至第五激活联系词对应变量,具体为存放两词间激活联系词字符串、激活联系类型、激活联系词在输入语句分词数据结构中坐标位置信息;
所述将各分句分词结果以及分词对应的强度联系数据、激活联系数据情况构建输入语句分词数据结构,在构建输入语句分词数据结构过程中,该方法还包括在所述输入语句分词数据结构中确定各分句的动词中心词、前中心词、后中心词在输入语句分词数据结构中的准确位置;
所述确定各分句的动词中心词在输入语句分词数据结构中的准确位置,具体为:若一个分句中无动词,则该分句的动词中心词标记为缺省状态;若一个分句中仅存在一个动词,则确定该动词即为动词中心词;若一个分句中存在两个及以上的动词词性的词,且这些动词之间未有名词或代词出现,则需联系上下文环境对各分句中动词词性进行调整并综合分析,最终确定动词中心词位置;
所述若一个分句中存在两个及以上的动词词性的词,且这些动词之间未有名词或代词出现,则需联系上下文环境对各分句中动词词性进行调整并综合分析,最终确定动词中心词位置,具体为:根据条件调整输入语句分词数据结构中各分词的词性,加入在数据处理环节存在的临时词性标记,检查输入语句各分句数据结构中词性和分词字符串信息,若一个分句中第k个分词在输入语句分词数据结构中词性为及物动词或不及物动词,且k-1个分词字符串为助词,则将该分句的输入语句分词数据结构中第k个分词词性调整为20动词性名词;若一个分句中第k个分词在输入语句分词数据结构中词性为及物动词或不及物动词,且k+1个分词字符串为助词,则将该分句的输入语句分词数据结构中第k个分词词性调整为24动词性修饰词;在对各分词词性调整后,若该分句第k个分词为动词、及物动词或不及物动词,其后第k+t个分词为动词,t为自然数,且第k个分词与k+t个分词之间无名词、代词,确定该分句第k+t个分词为动词中心词;
所述确定各分句的前中心词、后中心词在输入语句分词数据结构中的准确位置,具体为:以输入语句各分句的动词中心词为界,将分句划分成前后两个组块,在动词中心词之前的组块中确定前中心词具体位置;在动词中心词之后的组块中确定后中心词具体位置;对于输入语句中无动词中心词的情况,整个分句做为前组块,在其中确定前中心词具体位置,其后中心词确定为缺省状态。
2.根据权利要求1所述的汉语自然语言对话的语义关联与匹配方法,其特征在于,该方法还包括:将动词中心词、前中心词、后中心词对应的相关两词间激活联系词及两词间激活联系类型存入输入语句分词数据结构对应位置。
3.根据权利要求2所述的汉语自然语言对话的语义关联与匹配方法,其特征在于,所述对通过匹配筛选获得的若干条语句记录并且确定各语句记录的语义置信度,具体为:依次确定各语句记录的初步筛选阶段语义置信度记f1、词法语义置信度f2、句法语义置信度f3,之后求和即为各语句记录的语义置信度F,即通过计算公式计算得到一条语句记录对于输入语句的语义置信度F值,其中计算公式中参数是通过样本语料库中输入语句与其后的语义相关语句记录的排序情况,以有监督的机器学习方法确定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于张宝华,未经张宝华许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710593854.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种敏感内容识别方法及装置
- 下一篇:多粒度分词标注数据自动获取方法及系统