[发明专利]查询维度信息的确定方法及装置有效
申请号: | 201610094709.1 | 申请日: | 2016-02-19 |
公开(公告)号: | CN107102994B | 公开(公告)日: | 2020-07-31 |
发明(设计)人: | 何鑫 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 韩建伟;张永明 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 查询 维度 信息 确定 方法 装置 | ||
1.一种查询维度信息的确定方法,其特征在于,包括:
获取与查询条件匹配的网页地址信息,其中,所述查询条件与查询维度对应;
获取与所述网页地址信息对应的网页内容,其中,所述网页内容至少包括:文本信息、标签信息和文档对象模型中的一个或多个;
根据所述网页内容,生成页面信息集合,其中,所述页面信息集合至少包括在所述网页内容中具有并列关系的页面信息;
对所述页面信息集合中的各所述页面信息进行聚类分析,得到与所述查询维度对应的查询维度信息;
其中,当所述网页内容中至少包括所述文本信息时,所述根据所述网页内容,生成页面信息集合,包括:
以语句为单位对所述文本信息进行切分,得到语句集合;
通过语义模型分别对所述语句集合中的语句进行处理,确定所述语句集合中具有并列关系的语句;
根据所述语句集合中具有并列关系的语句,生成所述页面信息集合。
2.根据权利要求1所述的方法,其特征在于,对所述页面信息集合中的各所述页面信息进行聚类分析,得到与所述查询维度对应的查询维度信息,包括:
分别将所述页面信息集合中的所述页面信息代入聚类模型得到聚类集合,并确定各所述页面信息与所述聚类集合之间的最大距离参数;
根据所述最大距离参数小于或等于预先设置的阈值的所述页面信息,生成与所述查询维度对应的所述查询维度信息。
3.根据权利要求2所述的方法,其特征在于,所述分别将所述页面信息集合中的所述页面信息代入聚类模型得到聚类集合,并确定各所述页面信息与所述聚类集合之间的最大距离参数包括:
将所述页面信息集合中的第一页面信息和第二页面信息代入聚类模型,确定聚类集合;
将所述页面信息集合中的第三页面信息与所述聚类集合进行比对,确定所述第三页面信息与所述聚类集合之间的最大距离参数。
4.根据权利要求3所述的方法,其特征在于,在所述分别将所述页面信息集合中的所述页面信息代入聚类模型得到聚类集合,并确定各所述页面信息与所述聚类集合之间的最大距离参数中,采用以下方式确定所述页面信息间的距离参数:
其中,l1,l2为具有并列关系的所述页面信息,dl(l1,l2)为在两个所述页面信息之间的距离参数,|l1∩l2|为在两个具有并列关系的所述页面信息中出现相同词语的词语数量;
其中,dc(c1,c2)为所述页面信息集合中的所述页面信息之间的所述最大距离参数。
5.根据权利要求1所述的方法,其特征在于,当所述网页内容中至少包括所述标签信息时,所述根据所述网页内容,生成页面信息集合,包括:
根据所述标签信息,确定在当前网页中各页面标签的标签层级关系;
根据所述标签层级关系,确定在所述当前网页中具有并列关系的标签集合;
对所述标签集合中的各个页面标签中的所述网页内容进行提取,生成所述页面信息集合。
6.根据权利要求1所述的方法,其特征在于,当所述网页内容中至少包括所述文档对象模型时,所述根据所述网页内容,生成页面信息集合,包括:
根据所述文档对象模型,确定与当前网页对应的网页结构信息;
根据所述网页结构信息,确定在所述当前网页中具有并列关系的页面区域;
对具有并列关系的所述页面区域中的所述网页内容进行提取,生成所述页面信息集合。
7.根据权利要求1所述的方法,其特征在于,在获取与查询条件匹配的网页地址信息之后,所述方法还包括:
获取预先设置的筛选条件;
按照所述筛选条件对所述网页地址信息进行筛选,确定与所述查询条件匹配的所述网页地址信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610094709.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用户诉求分析方法和装置
- 下一篇:一种SQL执行计划的确定方法及装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置