[发明专利]一种基于语义相似度的自动问答文本匹配方法、自动问答方法和系统在审

申请号：	201810700950.3	申请日：	2018-06-29
公开（公告）号：	CN109062977A	公开（公告）日：	2018-12-21
发明（设计）人：	康祖荫;肖龙源;蔡振华;李稀敏;刘晓葳;谭玉坤	申请（专利权）人：	厦门快商通信息技术有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	暂无信息	代理人：	暂无信息
地址：	361000 福建省厦门***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	自动问答文本权重匹配语义相似度文本匹配词向量停用词加权文本相似度用户意图重要级别词性分词语句去除分类保留赋予
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种基于语义相似度的自动问答文本匹配方法、自动问答方法和系统，具体方法包括，对文本中的语句进行分词；去除文本中的停用词，保留非停用词；按照文本词性对每个词赋予权重，根据每个词的重要级别进行分类，级别越高权重越高，级别越低权重越低；对文本中每个词的进行加权词向量表示；对加权后的词向量进行文本相似度匹配。与现有技术相比，能够更准确地实现问答匹配，便于更准确地识别用户意图，匹配相应回答模板的特点。

技术领域

本发明涉及一种基于语义相似度的自动问答文本匹配方法、自动问答方法和系统，涉及智能客服领域。

背景技术

现有技术中，对话系统大体上可以分为三大类：闲聊型对话系统(Chitchat-bot)、检索型对话系统(IR-bot)、任务型对话系统(Task-bot)。随着人工智能的发展，对话系统的研究也取得了不同程度的成果，有的已经成功运用于各行各业。然而，部分行业的咨询自动问答系统并不多见，大多效果不理想，常常出现“答非所问”的现象，无法知晓用户意图，难以很好地实现问答匹配，降低了系统的准确率和招回率，对用户体验造成了伤害。

有鉴于此，本发明人专门设计了一种基于语义相似度的自动问答文本匹配方法、自动问答方法和系统，本案由此产生。

发明内容

本发明提供了一种基于语义相似度的自动问答文本匹配方法，具有能够更准确地实现问答匹配，便于更准确地识别用户意图，匹配相应回答模板的特点。

本发明还提供了一种基于语义相似度的自动问答方法及系统，具有能够更准确地识别用户意图，匹配相应回答模板的特点。

根据本发明提供的一种基于语义相似度的自动问答文本匹配方法，具体方法包括，

对文本进行分词操作，对文本中的语句进行分词；

对文本进行去停词操作，去除文本中的停用词，保留非停用词；

按照文本词性对每个词赋予权重，根据每个词的重要级别进行分类，级别越高权重越高，级别越低权重越低；

文本中每个词的加权词向量表示为：t＝v*w；

文本相似度匹配，设文本a中每个词的加权词向量为a₁,a₂,...,a_n，文本b中每个词的加权词向量为b₁,b₂,...,b_m，则文本a与b的相似度为：

其中，v为词向量，w为词向量权重，n与m分别代表文本a、b中词的个数，i与j分别表示文本a、b中的某个词的顺序下标。

所述重要级别由高到低包括核心、次核心、一般和不重要；其中，核心级别的字和/或词包括句子主干中的名词；次核心级别的字和/或词包括句子主干中的动词；一般级别的字和/或词包括代词、形容词和副词；不重要级别的字和/或词包括助词、标点、未知符号和语气词。