[发明专利]基于词性分类统计的重复网页和近似网页的识别方法无效
申请号: | 201210151552.3 | 申请日: | 2012-05-16 |
公开(公告)号: | CN102722526A | 公开(公告)日: | 2012-10-10 |
发明(设计)人: | 安俊秀;程芃森;王鹏 | 申请(专利权)人: | 成都信息工程学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京中海智圣知识产权代理有限公司 11282 | 代理人: | 巢瑞钰 |
地址: | 610000 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于词性分类统计的重复网页和近似网页的识别方法,包括以下步骤:从网页文本中提取正文;切词;分类;统计词频;提取高频词;将高频词在词级倒排索引中查询,直到查询成功,记录下查询出来的对应文本编号,若查询不成功,则表示当前词性类别的集合为空;统计出现次数最多的文本编号及其次数;统计集合中不为空的集合个数;判断频率最高的文本次数是否大于或等于1,如果不是,则将高频词添加至词级倒排索引,结束;如果是,则将出现次数最多的文本编号添加至类型倒排索引中,结束。本发明的算法步骤简单、实用性强,和现有传统算法相比,本发明算法在准确率和召回率方面有明显的提升,其中召回率能够提升10-20个百分点。 | ||
搜索关键词: | 基于 词性 分类 统计 重复 网页 近似 识别 方法 | ||
【主权项】:
一种基于词性分类统计的重复网页和近似网页的识别方法,其特征在于:包括以下步骤:(1)从网页文本中提取正文;(2)对正文进行切词操作;(3)将切词得到的词语以词性进行分类;(4)分别对每一类词语进行词频统计;(5)分别提取每一类词语中词频最高的词语;(6)将步骤(5)中提取的词语在词级倒排索引中查询,直到查询成功,结束当前词性类别词语的查询,记录下查询出来的对应文本编号;当查询完所有当前词性类别词语仍未成功时,则表示当前词性类别的集合为空;所述词级倒排索引结构如下:上式中,T表示索引项,即某个词语;document IDi(i=1,2,...,n)表示含有T的网页文本编号,所述词级倒排索引用于:以词语为分类标准,将文档编号按其文档所包含的词语分为若干类,类和类之中的文档编号存在交集,表明了文档中所有包含的词语;(7)统计步骤(6)中查找出来的所有文本编号中出现次数最多的文本编号及其次数;统计所有词性类别的集合中不为空的集合个数;(8)判断步骤(7)中频率最高的文本次数是否大于或等于1,如果不是,则转至步骤(9),如果是,则转至步骤(10),所述文本次数=不为空的集合个数×阈值,其值取下整数,所述阈值的取值范围为大于0且小于等于1;(9)将步骤(5)中所有的词频最高的词语添加至所述词级倒排索引,结束;(10)将步骤(7)中出现次数最多的文本编号添加至类型倒排索引中,所述类型倒排索引的结构如下:上式中,ducoment IDT表示索引项,document IDi(i=1,2,...,n)表示同ducoment IDT属于重复网页和近似网页的文本编号,所述类型倒排索引用于:将所有的文档编号以是否为重复网页或近似网页为标准分类,每一条记录表示一种分类,即一个重复网页或近似网页集合;结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都信息工程学院,未经成都信息工程学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210151552.3/,转载请声明来源钻瓜专利网。