[发明专利]一种跨语言的主题网站自动发现方法有效
申请号: | 201710017871.8 | 申请日: | 2017-01-11 |
公开(公告)号: | CN106649883B | 公开(公告)日: | 2019-12-17 |
发明(设计)人: | 程国艮;宋俊平 | 申请(专利权)人: | 中译语通科技股份有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F17/28 |
代理公司: | 11520 北京万贝专利代理事务所(特殊普通合伙) | 代理人: | 马红 |
地址: | 100040 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语言 主题 网站 自动 发现 方法 | ||
1.一种跨语言的主题网站自动发现方法,其特征在于,所述跨语言的主题网站自动发现方法根据种子网站或关键词集生成多语言主题模型,依据主题模型中的关键字进行网页信息采集,通过对相关网页进行聚类分析找出备选主题网站,将主题网站翻译后提供给用户,并根据用户反馈改进系统性能;
具体包括:
时序主题模型提取:将过去一段时间划分为几个时间段,分别计算每个时间段内网站的关键词,所有时间段的关键词组成网站的主题模型;在对比网站相似度时,分别对比各时间段内网站的相似度,然后根据各时间段的权重计算网站整体相似度,整体相似度大于给定阈值的即认定为主题相关网站;主题模型的定义如下:M=(K,A,L,N,P),其中M为主题模型,K为各时间段关键词向量,K=[K1,K2,......KN],其中Ki为第i个时间段的关键词向量Ki=[ki1,ki2,......kili];A为各时间段关键词向量相似度的权重,A=[a1,a2,......aN];L为每个时间段关键词的个数,L=[l1,l2,......lN];N为时间段的个数;P为每个时间段的长度,P=[p1,p2,......,pN];其中A、L和P的值由用户结合实际情况进行设置;A的值越接近当前时间的时间段的权重越高;
网页信息采集:网页信息采集模块根据关键字检索相关网页并下载;
网站信息抽取:利用网站信息抽取模块从相关网页中聚合出备选主题网站;提取备选主题网站的主题模型并与种子网站主题模型进行对比,将相似度大于某一阈值的放入新发现主题网站列表;
网页翻译:利用已有机器翻译引擎将新发现主题网站列表中的外语网页翻译为本国语言;
展示及反馈:将翻译后的新发现主题网站中的内容展示给用户;由用户对新发现主题网站进行反馈,即评价是否真的主题网站,根据反馈结果对系统进行优化。
2.如权利要求1所述的跨语言的主题网站自动发现方法,其特征在于,时序主题模型提取方法包括:
1)利用网页信息采集模块爬取种子网站历史网页;
2)根据P设置N个子数据集,根据网页的发布时间将网页分别放入对应的子数据集,若某网页的发布时间t满足pi-1<t-t0≤pi,t0为当前时间,则将该网页放入第i个子数据集;
3)分别计算每个子数据集的关键词,第i个子数据集选取前li个关键词构成主题模型;
4)根据关键词和各参数值生成网站主题模型M;M=(K,A,L,N,P),其中M为主题模型,K为各时间段关键词向量,K=[K1,K2,......KN],其中Ki为第i个时间段的关键词向量A为各时间段关键词向量相似度的权重,A=[a1,a2,......aN];L为每个时间段关键词的个数,L=[l1,l2,......lN];N为时间段的个数;P为每个时间段的长度,P=[p1,p2,......,pN]。
3.如权利要求2所述的跨语言的主题网站自动发现方法,其特征在于,如果没有种子站点,由用户直接指定各时间段的关键词生成主题模型;
当进行跨语言的主题网站自动发现时,外语网站主题模型生成方法包括两种根据实际情况进行选择的方法;
方法一为:对本语言主题模型的关键字进行翻译,直接生成外语主题模型;
方法二为:提供外语种子网站,自动提取主题模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中译语通科技股份有限公司,未经中译语通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710017871.8/1.html,转载请声明来源钻瓜专利网。