首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]汉英跨语言新闻话题检测方法及系统无效

申请号：	201110159605.1	申请日：	2011-06-14
公开（公告）号：	CN102253973A	公开（公告）日：	2011-11-23
发明（设计）人：	夏云庆	申请（专利权）人：	清华大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	王莹
地址：	100084 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	汉英语言新闻话题检测方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种汉英跨语言新闻话题检测方法，其特征在于，包括以下步骤：

S1、将跨语言新闻切分为语句，再将所述语句切分为词汇，所述跨语言新闻包括汉语新闻和英语新闻；

S2、将切分后的汉语新闻和英语新闻表示为跨语言广义向量空间内的跨语言向量；

S3、计算汉-汉新闻之间、汉-英新闻之间及英-英新闻之间的语义相似度；

S4、基于步骤S3的计算结果对跨语言新闻进行基于语义的话题聚类，从而找出若干个跨语言话题。

2.如权利要求1所述的方法，其特征在于，步骤S1中，在进行语句切分时采用标点符号判断语句边界；在进行汉语词汇切分时采取双向最大匹配策略判断词汇边界；在进行英语词汇切分时借助空格字符和标点符号判断词汇边界。

3.如权利要求1所述的方法，其特征在于，步骤S2包括：

S21、根据汉英语义知识和汉英平行语料的统计信息，计算词汇间的语义相似度，包括同语言词汇间的语义相似度和汉英跨语言词汇间的语义相似度；

S22、进行基于向量空间模型的跨语言新闻文档表示。

4.如权利要求3所述的方法，其特征在于，步骤S22具体为：通过计算词汇的特征权重进行特征选择，然后用向量表示跨语言新闻；其中，选择权重超过一定阈值的词汇为特征，所述向量的每一维表示一个特征，而向量在这一维上的数值等于该特征的权重。

5.如权利要求4所述的方法，其特征在于，所述跨语言新闻以文档的方式储存，利用下式(1)计算所述特征的权重：

w^s(t，d)＝TF^s(t，d)log(L/DF^s(t)) (1)

其中，t为特征词，d为目标新闻文档，TF^s为特征词t在文档d中的软词频，DF^s为t的软文档频，L为文档d包含的词汇总数。

6.如权利要求5所述的方法，其特征在于，利用下式(2)计算所述软词频TF^s：

TF^s(t，d)＝∑_iTF_i×Sim^WD(t，w_i) (2)

其中，w_i为文档d所包含的第i个词汇，Sim^WD是计算词汇语义相似度的函数。

7.如权利要求6所述的方法，其特征在于，利用下式(3)计算所述软文档频DF^s：

DFs(t)=Σdj∈DmaxiSimWD(t,wi,j))---(3)]]>

其中D为跨语言新闻文档集合，w_i，j为第j个新闻文档d_j所包含的第i个词汇。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201110159605.1/1.html，转载请声明来源钻瓜专利网。

上一篇：基于特定色彩影像分析的票据防伪自助受理方法及设备
下一篇：光刻机投影物镜奇像差原位检测系统和检测方法

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top