[发明专利]网页主题句的抽取方法及装置在审

申请号：	201510818653.5	申请日：	2015-11-20
公开（公告）号：	CN105488024A	公开（公告）日：	2016-04-13
发明（设计）人：	李晨尧;曾洪雷	申请（专利权）人：	广州神马移动信息科技有限公司
主分类号：	G06F17/27	分类号：	G06F17/27;G06F17/30;G06N3/08
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	王宝筠
地址：	510627 广东省广州市天河区黄埔大***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网页主题抽取方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种网页主题句的抽取方法，其特征在于，包括：

获取待确定网页、以及预先构建的机器学习模型；其中，所述待确定网页中包含多个预选取的备选主题句，每个所述备选主题句中包含若干分词；

将表示所述分词在待确定网页中重要程度的词语特征值输入至所述机器学习模型，获得所述分词的偏序值；

依据每个所述备选主题句包含的分词的偏序值，确定每个所述备选主题句各自的偏序值；

将偏序值大于预设阈值的备选主题句确定为目标主题句。

2.根据权利要求1所述的网页主题句的抽取方法，其特征在于，所述机器学习模型的构建方法具体包括：

获取若干网页样本的网页标题；其中，每个所述网页样本均对应若干用于召回网页样本自身的查询语句，每个所述查询语句均具有权重值，所述权重值用于表示查询语句与该查询语句召回的网页样本之间的关联程度；

针对每个所述网页标题，依据标注值公式label(termj)=Σm=0k(vm*wm(termj)/(Σn=0swm(termn))),]]>计算所述网页标题包含的每个分词的标注值；

其中，所述term_j表示网页标题中包含的第j个分词，label(term_j)表示分词term_j的标注值，m表示某一个查询语句，k表示所述查询语句的个数，v_m表示查询语句m的权重值，w_m(term_j)表示分词term_j在查询语句m中的权重值，n表示网页标题中的某一个分词，s表示网页标题中分词的个数；

针对每个所述网页标题，确定所述网页标题包含的每个分词用于表示分词在网页样本中的重要程度的词语特征值；

依据预设的机器训练算法，对所述若干网页标题中每个分词的标注值及词语特征值进行训练，获得机器学习模型。

3.根据权利要求2所述的网页主题句的抽取方法，其特征在于，所述机器训练算法为 GBRank训练算法，所述GBRank训练算法中的偏序比较方式为pairwise偏序比较，所述 GBRank训练算法中的损失函数为交叉熵。

4.根据权利要求1所述的网页主题句的抽取方法，其特征在于，所述依据每个所述备选主题句包含的分词的偏序值，确定每个所述备选主题句各自的偏序值，包括：

针对每个所述备选主题句，将所述备选主题句中分词的偏序值进行加权求和，获得所述备选主题句的偏序值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广州神马移动信息科技有限公司，未经广州神马移动信息科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510818653.5/1.html，转载请声明来源钻瓜专利网。