[发明专利]一种基于专业词汇挖掘的专业领域FAQ智能问答方法有效

专利信息
申请号: 201910316908.6 申请日: 2019-04-19
公开(公告)号: CN110188174B 公开(公告)日: 2021-10-29
发明(设计)人: 吕明琪;张浩;朱康钧;黄超;陈铁明 申请(专利权)人: 浙江工业大学
主分类号: G06F16/332 分类号: G06F16/332;G06F16/33;G06F16/335;G06F40/289
代理公司: 杭州斯可睿专利事务所有限公司 33241 代理人: 王利强
地址: 310014 浙江省*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 专业 词汇 挖掘 领域 faq 智能 问答 方法
【说明书】:

一种基于专业词汇挖掘的专业领域FAQ智能问答方法,包括以下步骤:(1)频繁词挖掘与归并:基于子串挖掘算法从专业领域文档集中挖掘出候选频繁词,并对同频候选频繁词进行归并,最终得到频繁词集;(2)频繁词过滤与验证:采用词法规则对频繁词进行过滤,采用互联网知识对频繁词进行验证,最终得到专业词汇集;(3)问题检索与答案返回:借助专业词汇集抽取实时问题关键词,在此基础上对历史问题进行全文检索和匹配度计算,最终返回匹配度最高的历史问题对应的答案。本发明提供了一种提高专业领域FAQ智能问答系统的服务质量的基于专业词汇挖掘的专业领域FAQ智能问答方法。

技术领域

本发明涉及数据挖掘和自然语言处理技术,具体涉及一种智能问答方法。

背景技术

智能问答系统可根据用户以自然语言形式输入的问句,返回最符合用户意图的文本信息。根据实现方式的不同,智能问答系统大致可分为基于信息检索的智能问答系统、基于阅读理解的智能问答系统、基于知识图谱的智能问答系统等。其中,基于信息检索的智能问答系统即FAQ智能问答系统,指在历史问答数据中检索得到最符合用户当前问题的答案。由于历史问答数据通常由领域专家提供,因此FAQ智能问答系统给出的答案质量较高,这种特性使得其较为适合面向专业领域的智能问答系统。

现有FAQ智能问答系统的主流实现技术为关键词检索,其主要流程如下:首先,从用户问题中抽取关键词。然后,基于关键词对历史问题进行全文检索。最后,对检索结果进行评分并返回评分最高的历史问题对应的答案。然而,现有方法没有充分考虑专业领域问答的特点。对于专业领域问题,其中包含的专业词汇对理解该问题具有关键的意义,但现有方法难以有效处理,主要表现在:首先,大多专业词汇不包含在通用词库里,因此分词算法难以正确的对包含专业词汇的问句进行分词,无法抽取高质量的专业领域关键词。其次,即使分词算法能够对专业词汇进行正确分割,系统也只是将专业词汇和普通词汇同等对待,无法体现专业词汇在结果评分中的重要性。因此,若能够有效的对专业词汇进行挖掘和抽取,可极大程度提高专业领域FAQ智能问答系统的服务质量。

发明内容

为了克服已有FAQ智能问答系统的服务质量较低的不足,本发明提供了一种提高专业领域FAQ智能问答系统的服务质量的基于专业词汇挖掘的专业领域FAQ智能问答方法。

本发明解决其技术问题所采用的技术方案是:

一种基于专业词汇挖掘的专业领域FAQ智能问答方法,包括以下步骤:

(1)频繁词挖掘与归并:基于子串挖掘算法从专业领域文档集中挖掘出候选频繁词,并对同频候选频繁词进行归并,最终得到频繁词集;

(2)频繁词过滤与验证:采用词法规则对频繁词进行过滤,采用互联网知识对频繁词进行验证,最终得到专业词汇集;

(3)问题检索与答案返回:借助专业词汇集抽取实时问题关键词,在此基础上对历史问题进行全文检索和匹配度计算,最终返回匹配度最高的历史问题对应的答案。

进一步,所述步骤(1)中,给定专业领域文档集S,频繁词挖掘与归并的步骤如下:

(1-1)初始化:扫描S,寻找所有出现频次大于等于指定阈值min_sup的字,并以其中每个字作为根节点构造一颗树,初始化n=2;

(1-2)候选频繁词挖掘:基于N-Gram模型扫描S,寻找所有出现频次大于等于min_sup的长度为n的候选频繁词,得到候选频繁词集CWS;

(1-3)候选频繁词索引:若则对其中每个候选频繁词cw,基于深度优先搜索在所有树中寻找路径对应cw[0:n-1]的一条分支,将字cw[n-1]插入该分支,并设置插入边的权重为cw的出现频次,然后n=n+1,转向步骤(1-2);反之,则转向步骤(1-4);

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910316908.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top