[发明专利]问答系统的测试数据处理方法、装置及终端有效
申请号: | 201611264727.6 | 申请日: | 2016-12-30 |
公开(公告)号: | CN106599317B | 公开(公告)日: | 2019-08-27 |
发明(设计)人: | 曾永梅;朱频频 | 申请(专利权)人: | 上海智臻智能网络科技股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张振军;吴敏 |
地址: | 201803 上海市嘉*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 问答 系统 测试 数据处理 方法 装置 终端 | ||
1.一种问答系统的测试数据处理方法,其特征在于,包括:
接收待测试问答系统的测试数据,每一测试数据包括测试问和其对应的期待问题,所述测试数据用于对问答系统进行测试,其中,所述待测试问答系统包括知识库,所述知识库中包括所述期待问题;
对于每一测试问,生成对应的语义表达式,所述语义表达式用以表征所述测试问的语义;
根据不同测试问的语义表达式之间的比较结果,对所述测试问或其对应的期待问题进行处理,以使得所述测试数据之间语义不重复;
所述根据所述语义表达式的比较结果对所述测试问进行处理包括:
如果对应同一期待问题的不同测试问生成的所述语义表达式的比较结果为所述不同测试问一致,则将所述不同测试问删减为一个测试问;
如果对应不同期待问题的不同测试问生成的所述语义表达式的比较结果为所述不同测试问一致,则发送提示信息,以提示所述不同期待问题是语义近似的重复期待问题。
2.根据权利要求1所述的测试数据处理方法,其特征在于,所述对于每一测试问,生成对应的语义表达式包括:
对所述每一测试问进行分词处理,以得到多个词;
分别对所述多个词中的每个词进行词性标注处理,以得到所述每个词的词性信息;
根据所述词性信息对所述多个词进行过滤处理,保留词性信息为预设词性的词;
判断过滤保留的每个词所属的词类,所述语义表达式包括所述过滤保留的每个词的词类,其中,每一词类包括多个词语。
3.根据权利要求2所述的测试数据处理方法,其特征在于,采用以下方式确定不同测试问的语义表达式之间的比较结果:
计算所述不同测试问的语义表达式的语义相似度;
根据所述语义相似度确定所述比较结果。
4.根据权利要求3所述的测试数据处理方法,其特征在于,所述对于每一测试问,生成对应的语义表达式还包括:
在所述多个词包含预设重点词时,对所述预设重点词所属的词类增加权重标注;其中,所述词类包括初始权重,在计算所述不同测试问的语义表达式的语义相似度时,如果所述词类存在权重标注,则在所述初始权重基础上的增加所述词类的语义权重。
5.根据权利要求3所述的测试数据处理方法,其特征在于,所述对于每一测试问,生成对应的语义表达式还包括:
在所述多个词包含有序词语组合时,对所述有序词语组合所属的多个词类增加有序标注;
其中,在计算所述不同测试问的语义表达式的语义相似度时,如果所述词类存在有序标注,则根据所述有序标注指示的顺序计算所述语义相似度。
6.根据权利要求3所述的测试数据处理方法,其特征在于,所述根据所述词性信息对所述多个词进行过滤处理时,还保留权重大于设定值的词。
7.根据权利要求6所述的测试数据处理方法,其特征在于,还包括:
对所述权重大于设定值的词所属的词类增加疑问标注;
其中,在计算所述不同测试问的语义表达式的语义相似度时,如果所述词类存在疑问标注,则将所述语义表达式展开成为包含所述词类和不包含所述词类的两个子表达式。
8.根据权利要求3所述的测试数据处理方法,其特征在于,所述根据所述语义相似度确定所述比较结果包括:
当所述语义相似度达到设定阈值时,则确定所述比较结果为所述不同测试问一致,否则确定所述比较结果为所述不同测试问不一致。
9.根据权利要求1所述的测试数据处理方法,其特征在于,所述知识库包括多个知识点,每一知识点包括标准问和所述标准问对应的扩展问,所述不同期待问题均为所述知识库中的不同标准问。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海智臻智能网络科技股份有限公司,未经上海智臻智能网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611264727.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种快递运单号查询方法及其装置
- 下一篇:一种配电网模型数据校验方法