[发明专利]网页质量检测方法及装置有效
| 申请号: | 201510050373.4 | 申请日: | 2015-01-30 |
| 公开(公告)号: | CN104615705B | 公开(公告)日: | 2018-09-18 |
| 发明(设计)人: | 王丽杰;吴先超;刘占一 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 路凯;崔雪青 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 网页 质量 检测 方法 装置 | ||
1.一种网页质量检测方法,其特征在于,包括:
获取根据用户查询语句得到的搜索结果中的多个网页;
针对获取的各个网页,对当前网页所包含的长文本中的分句进行语法语义分析,得到所述分句的句法结构;
提取分句的句法结构中的子结构;
对提取到的子结构进行语句类型识别;
根据语句类型识别结果,对提取到的子结构进行合并后对合并得到的子结构进行合理性验证,或者对提取到的子结构进行合理性验证;
将验证通过的子结构作为相关实体对作为分句所包含的知识点,其中相关实体对包含分句中具有关联关系的实体以及关联关系;
将所述长文本中的各个分句所包含的知识点进行组织,构成当前网页的知识网络;
根据所构成的当前网页的知识网络,以及当前网页的标题和/或子标题,生成当前网页的摘要;
将所述多个网页中的一个网页作为待检测的目标网页,根据所述目标网页与所述多个网页中其他网页之间在摘要上的相似度,确定所述目标网页的质量;
其中,所述对提取到的子结构进行合并后对合并得到的子结构进行合理性验证,或者对提取到的子结构进行合理性验证包括:
通过从所述子结构中挖掘到的语料来源网站的质量、网站数量确定所述语料的可靠性。
2.根据权利要求1所述的方法,其特征在于,根据所述目标网页与所述多个网页中其他网页之间在摘要上的相似度,确定所述目标网页的质量,包括:
获取所述多个网页中其他网页的摘要与所述目标网页的摘要之间的相似度;
统计在摘要上与所述目标网页的摘要之间的相似度,达到设定阈值的其他网页的数量和/或对应的相似度;
根据统计结果,确定所述目标网页的质量。
3.根据权利要求1所述的方法,其特征在于,在获得所述分句中具有关联关系的实体之后、将该具有关联关系的实体以及所述关联关系作为所述分句所包含的知识点之前,还包括:
根据预先针对所述关联关系的类型设定的元素构成框架,确定所述关联关系所需要补充的元素,并在获得所需要补充的元素后对所述关联关系进行元素补充;
将该具有关联关系的实体以及所述关联关系作为所述分句所包含的知识点,包括:将所述具有关联关系的实体、所述关联关系以及补充的元素,作为所述分句所包含的知识点。
4.根据权利要求1或3所述的方法,其特征在于,将所述长文本中的各个分句所包含的知识点进行组织,构成当前网页的知识网络,包括:
识别所述长文本中的各个分句所包含的知识点之间在实体上的关系;
将所述长文本中的各个分句所包含的知识点,以及识别到的关系,作为当前网页的知识网络。
5.根据权利要求1所述的方法,其特征在于,根据所构成的当前网页的知识网络,以及当前网页的标题和/或子标题,生成当前网页的摘要,包括:
剔除所构成的当前网页的知识网络中,与所述当前网页的标题和/或子标题的关联度满足设定的剔除条件的知识点;
根据经过剔除操作后的知识网络中所包含的知识点,生成当前网页的摘要。
6.根据权利要求5所述的方法,其特征在于,根据经过剔除操作后的知识网络中所包含的知识点,生成当前网页的摘要,包括:
对经过剔除操作后的知识网络中所包含的知识点,按照知识点所在分句的顺序或者按照知识点的类型组织在一起,得到当前网页的摘要;
其中,所述知识点的类型包括静态类型和动态类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510050373.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:多源信息应用系统及应用方法
- 下一篇:一种移动终端及数据存储的方法





