[发明专利]根据基于社区的问题回答档案库的自动常问问题汇编在审
| 申请号: | 201180022734.4 | 申请日: | 2011-04-06 |
| 公开(公告)号: | CN102884527A | 公开(公告)日: | 2013-01-16 |
| 发明(设计)人: | 蔡达成;明朝燕 | 申请(专利权)人: | 新加坡国立大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 唐京桥;李春晖 |
| 地址: | 新加坡*** | 国省代码: | 新加坡;SG |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 根据 基于 社区 问题 回答 档案 自动 汇编 | ||
相关申请的交叉引用
本申请要求于2010年4月6日提交的、名称为“Automatic Frequently Asked Question Compilation from Community-based Question Answering Achieve”的美国临时申请第61/321,133号的权益,其全部内容通过引用结合于此。
背景技术
本发明一般地涉及来自社区生成的问题回答对的数据或者其它非结构化的存档数据的常问问题(FAQ)列表的生成。
基于社区的问题回答(CQA)数据和常问问题(FAQ)数据的相似之处在于两者均使用成对的问题与回答来提供信息。然而,在提供CQA数据的服务累积用户生成的问题回答对的同时,FAQ数据通常以显著的成本由专家关于一个或多个主题手工进行汇编。因此,FAQ数据通常是简练的、全面的、良好划分的,并且以正式的合乎文法的语言书写,然而,CQA数据在语言和内容两方面具有参差不齐的质量,并且由于大量的提供数据的参与者而通常具有松散的结构并且被粗糙地划分。
通过要求FAQ数据领域的一个或多个专家监视FAQ主题的发展和FAQ主题用户行为的变化,FAQ数据的维护引入了额外的复杂性。因此,常规的FAQ数据通常是欠维护的并且很快变得过时。虽然CQA数据更能被维护,但是甚至在最特定层级的CQA数据中都会有的大量的问题回答对导致了信息超载。另外,用于生成CQA数据的内容的质量从极好到不切题急剧变化。进一步,CQA数据的常规种类结构通常没有特定得足以包括便于用户访问的特定关系。
发明内容
本发明的实施例涉及用于对与主题相关联的基于社区的问题回答(CQA)数据进行分层次地分类和总结以呈现出与该主题相关联的简练的且分层次地组织的常问问题(FAQ)数据的方法和系统。在一个实施例中,通过从与特定主题相关联的一个或多个源中以及与特定主题相关联的结构化数据中检索数据来生成针对该特定主题的题目层次。例如,与特定主题相关联的数据从与该特定主题相关联的网站或手册中检索,并且被用来生成与该主题相关联的题目层次。
使用来自题目层次的数据,从一个或多个CQA源中检索CQA数据并将其用于训练分类器。在一个实施例中,使用来自一个或多个CQA源的数据来训练分类器如类别特征质心(CFC)分类器。在训练之后,分类器根据题目层次将CQA数据组织成一个或多个题目。题目之内的CQA数据中包括的问题回答对被簇集,并且基于相关性得分和质量得分将题目的簇内的问题回答对的子集与该题目进行关联并进行存储。因此,所存储的与题目相关联的数据包括一个或多个如下问题回答对:所述问题回答对具有至少阈值数目的与先前识别的高质量问题回答对相关联的特征,并且还具有与包括该问题回答对的簇的质心相距比较小的距离。与簇的质心相距小的距离表示问题回答对高度相关于与簇相关联的题目。
附图说明
图1是根据本发明的实施例的用于使用基于社区的问题回答(CQA)数据来生成常问问题(FAQ)数据的系统环境的高级框图。
图2是根据本发明的实施例的计算装置的框图。
图3是根据本发明的实施例的FAQ生成器的框图。
图4是根据本发明的实施例的用于使用CQA数据来生成FAQ数据的过程的流程图。
图5是根据本发明的实施例的用于基于CQA数据的分类来选择CQA数据以用于生成FAQ数据的过程的流程图。
具体实施方式
FAQ生成平台体系结构
本发明的实施例可以使用多种体系结构(例如图1中示出的示例性体系结构)来实现。在这个实施例中,常问问题(FAQ)生成器130从一个或多个数据源110A、110B以及一个或多个社区问题回答(CQA)源115A、115B中检索数据,并且根据所检索的数据来生成FAQ数据。在图1示出的实施例中,FAQ生成器130、数据源110A和110B以及CQA源115A和115B耦合到网络120。虽然图1描绘了两个数据源110A、110B和两个CQA源115A、115B,但是在其它实施例中可以使用更多数目或更少数目的数据源110和CQA源115。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新加坡国立大学,未经新加坡国立大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201180022734.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于刷新半导体存储器装置的技术
- 下一篇:修改解调以避免干扰





