[发明专利]基于网站特征分析的信源评价方法、装置及存储设备、程序有效
| 申请号: | 201911423156.X | 申请日: | 2019-12-31 |
| 公开(公告)号: | CN111177514B | 公开(公告)日: | 2023-06-09 |
| 发明(设计)人: | 尹宝生;张龙龙;徐文文;秦航 | 申请(专利权)人: | 沈阳航空航天大学 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955 |
| 代理公司: | 北京国坤专利代理事务所(普通合伙) 11491 | 代理人: | 赵红霞 |
| 地址: | 110000 辽宁*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 网站 特征 分析 信源 评价 方法 装置 存储 设备 程序 | ||
1.一种基于网站特征分析的信源评价方法,其特征在于,包括如下步骤:
(1)通过搜索引擎获取用户输入关键词对应的前n个网站的URL;
(2)对所获得的网页进行深度爬取,获取所对应网页的HTML信息;
(3)根据爬虫程序获取的对应网站中的HTML信息,采用正则表达式提取其中的URL链接,进行其中网站特征信息内容的获取;
(4)根据余弦距离计算用户所输入的关键词与网站特征信息内容的相关程度,包括:
根据全部语料信息进行Word2Vec词向量的计算,生成100维的词向量,然后根据余弦距离以及所选网站特征信息内容加权求和,计算用户所输入的关键词与网站特征信息内容的相关程度;具体为:
1)计算公式为:
ftitle=cos(key_word,titlevec)
fID[n]=wdatefdate+wcontentfcontent+...+whtml_metafhtml_meta-scorecur
其中,len(html_meta)为处理之后meta文本的长度,titlevec为title数据组成句子向量的向量值,scorecur为网页的惩罚项,w4为权重参数,fID[n]为当前深度网页的得分值,最终网页的得分值为各个特征分值之和减去惩罚项的值;
2)根据爬虫程序进行depth=2的深度搜索时,不同深度的网页应占有不同的权重,得到对应的权重结果,计算公式为:
scoreweb=w1{fID[1]}+w2{fID[2]}+w3{fID[w]}
其中,fId[1]、fId[2]、fId[w]分别为depth=1的网页数据、depth=2的网页数据、外部链接的网页数据,权重wn满足约束w1+w2+w3=100;
(5)用BM25算法计算用户所输入关键词与网站特征信息内容的相关程度;
(6)结合BM25算法与余弦距离计算的相关度,最终根据网站的打分值得到相关网站信源的排序结果。
2.根据权利要求1所述的方法,其特征在于,所述根据爬虫程序获取的对应网站中的HTML信息,采用正则表达式提取其中的URL链接,进行其中网站特征信息内容的获取,包括:
1)通过URLIO工具获取每个URL对应的Date、Content、Title内容;
2)利用正则表达式获取URL链接对应的锚文本、网页Title属性、Meta属性内容。
3.根据权利要求1所述的方法,其特征在于,所述步骤(3)后还包括如下步骤:对获取到的网站特征信息内容进行预处理,并且编号存储,所述预处理方法的步骤为:用TextRank算法提取出其中的多个关键词,所述的TextRank计算公式如下:
其中,d为阻尼系数,wji为两词语vi和vj之间边的权重,一个单词的权重取决于在i前面的各个点j组成的(j,i)这条边的权重,以及j这个点到其它边的权重之和。
4.根据权利要求1所述的方法,其特征在于,所述步骤(6)中结合BM25算法与余弦距离计算的相关度,最终根据网站的打分值得到相关网站信源的排序结果,具体公式为:
score=scoreBM25+scoreweb。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳航空航天大学,未经沈阳航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911423156.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电子设备和信息处理方法
- 下一篇:图像显示方法、电子设备和存储介质





