[发明专利]一种基于深度学习的自动化问答方法在审

申请号：	202111633958.0	申请日：	2021-12-29
公开（公告）号：	CN114416942A	公开（公告）日：	2022-04-29
发明（设计）人：	熊林海	申请（专利权）人：	南京视察者智能科技有限公司
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/35;G06F40/268;G06F40/30;G06F16/951;G06N3/04;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	210014 江苏省南京市秦淮区永智***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习自动化问答方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度学习的自动化问答方法，其特征在于，该方法主要包括如下步骤：

步骤1，构建问答源数据库，从省、市、区级便民问答社区官网爬取社会治理相关的问答数据对，利用多线程分布式爬取后，做文本预处理并将其存入源数据库，构造问题训练集；

步骤2，利用所有问答数据对构建社会治理领域语料库，基于社会治理领域语料库，采用深度神经网络LSTM训练出语言模型LSTMlm；

基于社会治理领域语料库，构建社会治理领域同义词库：利用百度LAC分词算法将步骤1采集到的问答数据对自动分词，加入领域词库形成社会治理领域词汇，再对所有单词创建同义词集合，并用层次图表示各个单词的关系，定义单词之间的联系；

步骤3，利用步骤2的同义词库自动增加问答对，扩张源数据库；

利用百度LAC分词算法将问题问句自动分词，并用词性标注工具进行词性自动标注，然后通过同义词库将问句进行扩展，构造该问题的相似问句并存入源数据库中；

步骤4，源数据库扩张后，进一步进行标注训练，包括问题纠错、关键词提取、答案纠错、法律依据补充、分类标签；

对问答系统需要支撑的业务数据进行分析并设计文本标注系统，首先将问题训练集根据实际业务场景需求进行分类，利用BERT分类模型首先将问题自动分类，标注人员进入标注系统可以按分类来进行标注，问答系统中的纠错模型自动提示错误点，标注人员审核修改并确认，对于不合理的问题和答案，标注人员修改或补充，同时相似度模型自动匹配法律依据，标注人员可审核或修改；标注系统自动将标注后的数据存入标签数据库；

步骤5，设计问答系统，接受用户的输入问题，对用户的问题进行理解，对用户的问题先进行分类：对用户输入的问题先用百度LAC分词进行分词，并利用关键词抽取模型抽取关键词，利用BERT分类模型定位到对应的分类，具体为：

先用BERT分类模型进行初始分类，设置概率阈值D，若大于D的分类只有一个，即能直接确定某一类则直接结束，否则选取概率较大的前n类；统计用户问题中词的出现占比，记A₁，A₂,...,A_a为输入词，a为输入词的个数，构成输入词集合x，x＝(A₁，A₂,...,A_a)，B₁，B₂,...,B_b为概率较大的前b类，构成分类集合y，y＝(B₁，B₂,...,B_b)；