[发明专利]佛学问答对的构建方法、装置、设备及存储介质在审
申请号: | 202110285873.1 | 申请日: | 2021-03-17 |
公开(公告)号: | CN112988999A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 杜江楠;李剑锋;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/335;G06F16/35;G06F16/36;G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 姚维 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 佛学 答对 构建 方法 装置 设备 存储 介质 | ||
本发明涉及大数据技术领域,公开了一种佛学问答对的构建方法、装置、设备及存储介质,用于提高佛学问答对构建的准确性和效率。佛学问答对的构建方法包括:根据预置的领域词进行数据采集,得到标注后的样本数据,标注后的样本数据包括与佛学领域相关的问答信息;对标注后的样本数据进行数据清洗,得到清洗后的样本数据;通过预置佛学模型对清洗后的样本数据进行过滤,得到候选问答对数据;基于深度学习模型对候选问答对数据进行分类处理,得到目标问答对数据;根据预设的命名实体识别模型和无监督的领域词挖掘算法对目标问答对数据进行文本挖掘,得到新的实体和新的领域词。此外,本发明还涉及区块链技术,目标问答对数据可存储于区块链节点中。
技术领域
本发明涉及大数据技术的增量更新领域,尤其涉及一种佛学问答对的构建方法、装置、设备及存储介质。
背景技术
知识库构建是人工智能中重要的组成部分,数据决定着模型的上限,可以说数据的重要程度甚至要超过算法,世界知名的人工智能公司如谷歌、微软、facebook无一不拥有海量的高质量的数据,随着算法越来越公开和普及,专业的数据是人工智能领域的杀手锏。而数据又分为开放领域的数据和垂直领域的数据,开放领域的数据主要关注广而大,垂直领域的数据则更追求质量和覆盖。而佛学领域近年来受到越来越多人的关注,针对于佛学垂直领域构造高质量的问答数据需求也与日俱增。
佛学知识问答数据是目前佛学领域比较稀缺的数据,问答数据需求包括问题和答案各个的质量以及之间的关系,传统方法标注效率低。此外佛学领域是一个比较专业的领域,存在一定的专业和门槛,已有的标注手段,得出的数据质量差,利用少量数据自动进行问答对扩充,存在扩充的佛学问答对准确性低的问题。
发明内容
本发明提供了一种佛学问答对的构建方法、装置、设备及存储介质,用于提高佛学领域词挖掘和佛学问答对构建的准确性和效率。
为实现上述目的,本发明第一方面提供了一种佛学问答对的构建方法,包括:根据预置的领域词进行数据采集,得到标注后的样本数据,所述标注后的样本数据包括与佛学领域相关的问答信息;对所述标注后的样本数据进行数据清洗,得到清洗后的样本数据;通过预置佛学模型对所述清洗后的样本数据进行过滤,得到候选问答对数据;基于深度学习模型对所述候选问答对数据进行分类处理,得到目标问答对数据,所述目标问答对数据为符合佛学领域的问答对数据;根据预设的命名实体识别模型和无监督的领域词挖掘算法对所述目标问答对数据进行文本挖掘,得到新的实体和新的领域词,所述新的实体和所述新的领域词用于指示继续挖掘与构建新的佛学问答对数据集。
可选的,在本发明第一方面的第一种实现方式中,所述根据预置的领域词进行数据采集,得到标注后的样本数据,所述标注后的样本数据包括与佛学领域相关的问答信息,包括:基于预置的领域词查询预设配置信息表,得到网页地址信息;按照所述网页地址信息从目标网页中采集初始文本数据;获取预设的关键词,根据所述预设的关键词从所述初始文本数据中筛选目标文本数据,并对所述目标文本数据进行标注处理,得到标注后的样本数据,所述标注后的样本数据包括与佛学领域相关的问答信息。
可选的,在本发明第一方面的第二种实现方式中,所述对所述标注后的样本数据进行数据清洗,得到清洗后的样本数据,包括:对所述标注后的样本数据进行去重处理,得到去重后的样本数据;基于预先构建的敏感词库,按照敏感词过滤算法对所述去重后的样本数据进行敏感词处理,得到处理后的样本数据;对所述处理后的样本数据移除标点符号,得到清洗后的样本数据。
可选的,在本发明第一方面的第三种实现方式中,所述通过预置佛学模型对所述清洗后的样本数据进行过滤,得到候选问答对数据,包括:获取主题词,将所述清洗后的样本数据和所述主题词输入至预置佛学模型中,调用所述预置佛学模型从所述清洗后的样本数据中筛选包含主题词的问答对数据;对所述包含主题词的问答对数据进行问答对语义匹配,得到语义匹配结果;当所述语义匹配结果大于或等于预定阈值时,对所述包含主题词的问答对数据进行筛选,得到候选问答对数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110285873.1/2.html,转载请声明来源钻瓜专利网。