[发明专利]一种跨社区开源资源匹配关联方法有效
申请号: | 201510617004.9 | 申请日: | 2015-09-21 |
公开(公告)号: | CN105389330B | 公开(公告)日: | 2019-02-12 |
发明(设计)人: | 王怀民;尹刚;王涛;宋晨希;范强;史殿习;刘惠;丁博;史佩昌;杨程;侯翔;湛云 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/93 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 410073 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种开源软件跨社区匹配关联方法,采用通用的Web爬虫技术从互联网的主要开源项目托管社区和知识分享社区中获取开源软件及在线文档信息数据,利用开源软件的项目名称及项目标签与在线文档信息的文档标题及文档标签进行关联匹配,为不同匹配类型设置不同的权重,实现在线文档与开源软件的跨社区关联关联,提高开发人员在使用开源软件查找相关信息时的效率。 | ||
搜索关键词: | 一种 社区 资源 匹配 关联 方法 | ||
【主权项】:
1.一种开源软件跨社区匹配关联方法,包括下列步骤:步骤101、采用通用的Web爬虫技术从互联网的主要开源项目托管社区中获取开源软件信息,采集包括开源软件的基本属性的项目数据,所述基本属性包括项目名称、项目描述、开发语言、创建时间、爬取时间、项目标签、项目源地址;步骤102、采用通用的Web爬虫技术从互联网主要的知识分享社区中获取开源软件相关在线文档信息数据,所述在线文档信息数据包括文档标题、文档内容及文档基本属性,所述文档基本属性包括文档标签、文档发布时间、文档源地址;步骤103、采用开源的全文检索工具Lucene为采集到的在线文档数据的文档标题、文档内容和开源软件的项目名称建立文件索引;步骤104、用开源软件的项目名称与在线文档的文档标签进行匹配,其中以所述项目名称为关键词在数据库存储的标签表中查找在线文档,若所述在线文档具有与所述项目名称相同的标签,则为所述在线文档与所述开源软件建立关联,并赋予权值w1,表示以项目名称和文档标签为度量时,所述在线文档针对所述开源软件的关联程度;步骤105、用开源软件的项目名称在在线文档标题中进行检索,其中,以项目名称为关键词,从步骤103中建立的文件索引中搜索在线文档标题,若文档标题中含有项目名称,则为该文档与项目建立关联,并将这次关联赋予权值w2,表示以项目名称和文档标题为度量时,所述在线文档针对所述开源软件的关联程度;步骤106、在所有已建立的关联中,对开源软件的项目标签统计包含在在线文档标题中的项目标签个数x,计算权值w3=0.5*log2(x2+1),其表示以项目标签在文档标题中的出现次数作为该项目与在线文档关联程度的度量,通过权值的计算判断关联结果的可信度;步骤107、在所有已建立的关联中,对关联的开源软件的项目标签与在线文档的文档标签进行匹配,统计在两者中都出现的标签个数y,计算权值w4=0.6*log2(y2+1),其表示以项目标签和文档标签中相同的标签个数作为度量,通过权值的计算判断关联结果的可信度;步骤108、计算最终权值w=w1+w2+(w1+w2)*(w3+w4),当关联的权值w大于阈值q时,认为该在线文档与开源软件是关联的,关联结果以[开源软件,在线文档,权重]结果存储在数据库中,完成跨社区关联。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510617004.9/,转载请声明来源钻瓜专利网。
- 上一篇:数据存储结构的转换方法及装置
- 下一篇:数据库的操作方法及装置