[发明专利]基于疑问词扩展的信息检索方法有效
申请号: | 201410156424.7 | 申请日: | 2014-04-18 |
公开(公告)号: | CN103902733B | 公开(公告)日: | 2017-02-01 |
发明(设计)人: | 邹艳珍;叶挺;陈秀招 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京天奇智新知识产权代理有限公司11340 | 代理人: | 王海洋 |
地址: | 100080*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 疑问词 扩展 信息 检索 方法 | ||
技术领域
本发明涉及一种信息检索方法,尤其是涉及一种基于疑问词扩展的软件信息检索方法。
背景技术
软件知识库是用于软件知识管理的一种特殊的数据库,其存储了和软件相关的代码、文档,以及问答等信息,以便于有关软件知识的采集、整理以及提取。
检索是软件知识库提供的一项重要的功能。针对用户输入的一个查询语句,检索系统进行提取查询词并进行相似度匹配,将检索结果排序以后返回给用户。
目前的软件信息检索工具主要采用关键词匹配,词频统计(TF-IDF)等技术,这些简单的关键词组合忽略了人们提问时的潜在语义信息,而且人们很难通过简单的关键词组合来准确定义自己的搜索意图,导致人们经常花大量的时间对结果列表进行人工辨识来寻找理想的答案。
发明内容
本发明主要是解决现有技术所存在的检索效率低,检索结果与检索意图不匹配的问题,提供了一种基于疑问词扩展的软件信息检索方法。该方法在检索时综合考虑了代码特征、链接特征,以及不同疑问词提问类别的文本特征等,在对软件问答网站的问题答案对进行学习的基础上进行检索,使系统能够返回更高准确度的回答,优化用户的检索体验。
本发明的上述技术问题主要是通过下述技术方案得以解决的:
一种基于疑问词扩展的信息检索方法,其特征在于,包括:
统计步骤:对问答网站已有的问题答案对进行分类,然后提取各类型答案对的特征,再利用机器学习得出各类型答案对间的区分性特征;
分析步骤:利用自然语言对检索问题进行处理以得到疑问词,再将检索向量与统计步骤中得到的区分性特征合并组成新的检索向量;
检索步骤:利用分析步骤中得到的检索向量在软件知识库中进行检索,得到候选结果列表;
优化的,上述的一种基于疑问词扩展的信息检索方法,所述统计步骤进一步包括以下子步骤:
步骤2.1:利用爬虫程序抓取真实问答网站的问题答案对;
步骤2.2:将步骤2.1中所抓取的答案对进行词性标注,然后根据词性标注得到的疑问词将问题答案对进行分类;
步骤2.3:通过机器学习提取步骤2.2中同一类别答案对的各个答案特征;
步骤2.4:通过主要成分分析从步骤2.3得到答案特征中提取能区别不同类别答案对的答案特征作为该类别答案对的区分性特征,将区分特征以外的答案特征作为非区分性特征。
优化的,上述的一种基于疑问词扩展的信息检索方法,步骤2.3中所述的答案特征是文本特征、代码特征,以及链接特征中的一种或几种的组合。
优化的,上述的一种基于疑问词扩展的信息检索方法,所述分析步骤进一步包括以下子步骤:
步骤4.1:通过对检索问题的词性标注分析,取得用户检索问题的疑问词;
步骤4.2:查找在统计步骤中得到的与步骤4.1中的疑问词相对应的区分性特征;
步骤4.3:去除检索问题中的停用词和词根,将得到的词向量与步骤2中得到的区分性特征合并组成新的检索向量;
优化的,上述的一种基于疑问词扩展的软件信息检索方法,所述检索步骤中在得到候选结果列表后,还包括对候选结果进行过滤和重排序的步骤,该步骤进一步包括以下子步骤:
步骤5.1:用检索向量在软件知识库中进行检索,得到候选结果列表;
步骤5.2:分析候选结果列表中的每个备选答案特征,并将备选答案特征与非区分性特征进行模式匹配,按照匹配度排序,并返回最终结果。
因此,本发明具有如下优点:1.能够利用问答中疑问词和答案之间的联系提高软件信息检索精度;2.能够利用问答中疑问词和答案之间的联系来对检索结果进行过滤和重排序,加快用户筛选速率。
附图说明
附图1是实施例1的统计步骤流程图。
附图2是实施例1的分析步骤流程图。
具体实施方式
实施例1:
在统计步骤之前,先在特定于编程的问答网站stackoverflow上爬取了所有的问题答案对,随机选取了部分问题答案对作为统计对象。
首先对根据问题答案对中问题的词性标注进行分类,根据问题的疑问词分为how,where,why,what,which等类别,经分析发现who,when的问题在本领域不存在,所以不考虑who,when类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410156424.7/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置