[发明专利]一种自然语言问答的方法无效

申请号：	201210038756.6	申请日：	2012-02-17
公开（公告）号：	CN102637192A	公开（公告）日：	2012-08-15
发明（设计）人：	郝宇;黄民烈;朱小燕	申请（专利权）人：	清华大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	北京中北知识产权代理有限公司 11253	代理人：	冯梦洪
地址：	100084***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种自然语言问答方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种自然语言问答的方法，其特征在于：包括以下步骤：

(1)对于用户输入的问题进行问题分析；

(2)利用问题分析的结果以及社区问答的语料对问题作答；

(3)利用问题分析的结果以及百科语料对问题作答；

(4)对于从步骤(2)、(3)返回的答案，进行答案验证及选择，并最终返回最佳答案给用户。

2.根据权利要求1所述的自然语言问答的方法，其特征在于：步骤(1)包括以下分步骤：

(1.1)利用中文分词工具对于问题进行分词以及词性标注；

(1.2)抽取问题中的核心概念，采用的方法是：利用词性标注结果，认为名词即重要概念；或者利用词性信息的同时还利用词频信息，计算每个词出现的文档集合的大小，滤去高于指定阈值的词；

(1.3)进行问题分类，问题分类的标准是根据问题的需求进行：分为事实型问题，列表型问题，原因型问题，方法型问题，定义型问题以及导航型问题。

3.根据权利要求2所述的自然语言问答的方法，其特征在于：步骤(1.3)中采用根据马尔可夫逻辑网的方法进行分类：

根据下面的公式计算问题q属于某个类别t的概率：

其中，F_qt是问题q和类别t能够触发的模板集合，即问题q符合该模板，且该模板在训练集合中命中过类别t的问题；n_i(q，t)是问题q符合的strict pattern的数量，或者是soft pattern的匹配程度，其中strictpattern是一个问题的虚词所具有的特征，soft pattern是一个问题的实意词所具有的特征；利用L1-正规化方法，在训练集合上学习得到权重系数w_i。

4.根据权利要求1所述的自然语言问答的方法，其特征在于：步骤(2)包括以下分步骤：

(2.1)根据问题分析的结果，检索相似问题；

(2.2)对检索得到的相似问题的答案集合进行处理，得到答案。

5.根据权利要求4所述的自然语言问答的方法，其特征在于：步骤(2.2)中计算问题与返回相似问题的相似度的方法如下：

两个问题之间的总相似度是以下六项相似度的加权，分别是

（1）两个问题在词上的余弦相似度，权值为1；

（2）两个问题在词上的最大重叠相似度，权值为1；

（3）两个问题在重要词上的余弦相似度，权值为0.5；

（4）两个问题在重要词上的最大重叠相似度，权值为0.5；

（5）两个问题在字上的最长公共子序列相似度，权值为0.5；

（6）两个问题在字上的连续最长公共子序列相似度，权值为0.5；

其中