[发明专利]信息处理装置和方法以及信息定位装置在审
| 申请号: | 201510830867.4 | 申请日: | 2015-11-25 |
| 公开(公告)号: | CN106802890A | 公开(公告)日: | 2017-06-06 |
| 发明(设计)人: | 张波;孟遥;孙俊 | 申请(专利权)人: | 富士通株式会社 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 王萍,陈炜 |
| 地址: | 日本神*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 信息处理 装置 方法 以及 信息 定位 | ||
1.一种信息处理装置,包括:
搜索单元,用于搜索与关注对象有关的结构化的网页信息;
语义特征获取单元,用于获取能够对搜索到的网页信息进行表征的语义特征,所述语义特征表示所搜索到的网页信息中的、与所述关注对象相关联的内容;以及
样式特征获取单元,用于获取能够对搜索到的网页信息进行表征的样式特征,所述样式特征表示所搜索到的网页信息的结构,
其中,所述样式特征获取单元被配置为计算搜索到的网页信息的DOM树中的、与给定节点有关的标签名、标识和类名的出现频率,并得到以所述出现频率为权重的样式向量,以作为所述样式特征。
2.如权利要求1所述的信息处理装置,其中,
所述语义特征获取单元被配置为:计算搜索到的网页信息当中的、与所述关注对象的互信息高于第一阈值的词语的出现频率,并得到以所述出现频率为权重的语义向量,以作为所述语义特征。
3.如权利要求2所述的信息处理装置,其中,所述语义特征获取单元进一步被配置为:
将搜索到的网页信息当中的、与所述关注对象的互信息高于第二阈值的词语作为关键词,并得到搜索到的网页信息当中的、与所述关键词的互信息高于所述第一阈值且与所述关注对象的互信息不高于所述第一阈值的词语,其中所述第二阈值高于所述第一阈值;以及
计算所得到的词语在搜索到的网页信息当中的出现频率,并将该出现频率作为新的权重加入所述语义向量中。
4.如权利要求1所述的信息处理装置,其中,
所述与给定节点有关的标签名、标识和类名包括从所述DOM树的根节点到所述给定节点的路径中所包括的节点的标签名、标识和类名。
5.如权利要求1所述的信息处理装置,其中,
所述与关注对象有关的结构化的网页信息为与关注对象有关的新闻类型的网页信息。
6.如权利要求5所述的信息处理装置,其中,
所述给定节点包括时间节点、标题节点和正文节点。
7.一种信息定位装置,其利用如权利要求1-6中任一项所述的信息处理装置在与所述关注对象有关的网站中定位与所述关注对象有关的结构化的网页信息,所述信息定位装置包括:
网站语义特征获取单元,用于获取所述网站的目标部分的语义特征,该语义特征表示所述目标部分中的、与所述关注对象相关联的内容;
网站样式特征获取单元,用于获取所述网站的目标部分的样式特征,该样式特征表示所述目标部分的结构;
相关度计算单元,用于计算所述目标部分的语义特征与所述信息处理装置所获取的语义特征之间的语义相关度、以及所述目标部分的样式特征与所述信息处理装置所获取的样式特征之间的样式相关度;以及
确定单元,用于基于所计算的语义相关度和样式相关度,确定所述目标部分是否为所述结构化的网页信息,
其中,所述网站样式特征获取单元被配置为:计算所述网站的目标部分的DOM树中的、与符合预定条件的节点有关的标签名、标识和类名的出现频率,并得到以所述出现频率为权重的网站样式向量,以作为所述目标部分的样式特征。
8.如权利要求7所述的信息定位装置,其中,所述预定条件为预先获得的结构化的网页信息的DOM树中的节点的结构特性,
并且,所述信息定位装置还包括:网站结构特征获取单元,用于获取所述网站的候选部分的DOM树中的节点的结构特征,并且在所述候选部分的DOM树中的节点的结构特征符合所述预先获得的结构化的网页信息的DOM树中的节点的结构特性时,将所述候选部分提供给所述网站语 义特征获取单元和所述网站样式特征获取单元作为所述目标部分。
9.如权利要求7所述的信息定位装置,其中,
所述网站语义特征获取单元被配置为:计算所述网站的目标部分中所包括的词语的出现频率,并得到以所述出现频率为权重的语义向量,以作为所述目标部分的语义特征。
10.一种信息处理方法,包括:
搜索与关注对象有关的结构化网页信息;
获取能够对搜索到的网页信息进行表征的语义特征,所述语义特征表示所搜索到的网页信息中的、与所述关注对象相关联的内容;以及
获取能够对搜索到的网页信息进行表征的样式特征,所述样式特征表示所搜索到的网页信息的结构,
其中,获取所述样式特征包括:计算搜索到的网页信息的DOM树中的、与给定节点有关的标签名、标识和类名的出现频率,并得到以所述出现频率为权重的样式向量,以作为所述样式特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510830867.4/1.html,转载请声明来源钻瓜专利网。





