[发明专利]一种基于词性权重计算的问答数据清洗系统在审
申请号: | 201810533314.6 | 申请日: | 2018-05-29 |
公开(公告)号: | CN108763476A | 公开(公告)日: | 2018-11-06 |
发明(设计)人: | 庄永军 | 申请(专利权)人: | 深圳市三宝创新智能有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 深圳力拓知识产权代理有限公司 44313 | 代理人: | 龚健 |
地址: | 518055 广东省深圳市福田区华*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 权重计算 词性 问答数据 分词模块 清洗系统 分词 数据清除模块 连接数据 清除模块 用户基数 重要保证 有效地 回馈 权重 答案 重复 | ||
本发明公开了一种基于词性权重计算的问答数据清洗系统,包括问句分词模块、词性权重计算模块和数据清除模块,所述问句分词模块连接词性权重计算模块,词性权重计算模块还连接数据清除模块,本发明通过对问句分词后,计算相似句的分词权重,能够有效地清除一些重复的问题以及不够简短、精确的答案,不仅提高问答数据集的质量,还能够加强让较大的用户基数的问题得到回馈的重要保证。
技术领域
本发明涉及一种数据清洗系统,具体是一种基于词性权重计算的问答数据清洗系统。
背景技术
近年来,问答系统被大量广泛地研究。所谓问答系统即当用户给定一个问题, 问答系统能够快速进行分析处理并相应反馈简短、精确的答案。若根据系统的应用目的和获取问题答案所依据的数据,可以将问答系统划分为基于固定数据库的问答系统、网络问答系统和单文本问答系统。而其中基于固定数据库的问答系统通常从预先建立的大规模真实文本语料库中进行查找、反馈,即根据用户请求,返回用户一个问题的答案。但目前该类型的问答系统表现性能,很大程度上依赖于该系统的数据库的规模,系统的回复即是在该知识库中搜索到的与用户问句匹配的答案。
发明内容
本发明的目的在于提供一种基于词性权重计算的问答数据清洗系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于词性权重计算的问答数据清洗系统,包括问句分词模块、词性权重计算模块和数据清除模块,所述问句分词模块连接词性权重计算模块,词性权重计算模块还连接数据清除模块。
一种基于词性权重计算的问答数据清洗方法,包含以下步骤:
A、对问答数据集进行按问题关键词的排序处理,得到一系列相似问题列表;
B、分别对相邻两个问句进行分词处理;
C、根据相邻两句的分词结果,计算单个分词的词性权重;
D、计算相邻两句整句的词性权重之和及共有词的词性权重之和;
E、计算相同词词性权重合在整句问题词性权重合的比重,若比重大于0.8的相邻两个问句,做出删除相邻两个问句的第一个句子的处理。
与现有技术相比,本发明的有益效果是:本发明通过对问句分词后,计算相似句的分词权重,能够有效地清除一些重复的问题以及不够简短、精确的答案,不仅提高问答数据集的质量,还能够加强让较大的用户基数的问题得到回馈的重要保证。
附图说明
图1为一种基于词性权重计算的问答数据清洗系统结构框图;
图2为一种基于词性权重计算的问答数据清洗方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-2,一种基于词性权重计算的问答数据清洗系统,其包括问句分词模块、词性权重计算模块和数据清除模块。
问句分词模块:问答数据集中按问题的关键词进行排序,由于基于关键词排序,列表中相似的问题都被集中在一起,并分别对相邻两个问句进行分词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市三宝创新智能有限公司,未经深圳市三宝创新智能有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810533314.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种录制方法、录制装置及终端设备
- 下一篇:一种短文本分类方法及系统