[发明专利]汉英跨语言新闻话题检测方法及系统无效

申请号：	201110159605.1	申请日：	2011-06-14
公开（公告）号：	CN102253973A	公开（公告）日：	2011-11-23
发明（设计）人：	夏云庆	申请（专利权）人：	清华大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	王莹
地址：	100084 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	汉英语言新闻话题检测方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及跨语言新闻话题检测技术领域，特别是涉及一种汉英跨语言新闻话题检测方法及系统。

背景技术

汉语和英语是国际社会的两种主流语言，汉英新闻数量占绝对优势。新闻阅读是人们了解世界、把握时局的最重要的途径。随着互联网的快速普及，新闻数量急剧膨胀，人们不得不每日纵身新闻海洋，从成千上万的汉英新闻中获取信息。这时，人们主要面临两个困难：第一，新闻数量巨大，短时间内无法阅读所有新闻，必然造成信息的片面性；若企图阅读所有新闻，则需要消耗大量时间，普通人难以接受。第二，语言障碍严重阻碍了外文阅读，人们多数选择阅读母语新闻，却难以对其他语言的新闻进行有选择地阅读，也造成信息的片面性。为应对上述需求，各种新闻话题分析和文摘技术不断涌现，自动地将大量的新闻归类为不同的话题，以方便人们快速浏览。

实现跨语言新闻话题检测的技术难度较大。近年来，研究人员主要尝试了两类方法。第一类是借助多语词典将外文词汇转换为母语词汇，然后对新闻进行话题分析。这个方法的主要问题在于，不同语言中的词汇多数不是一一对应关系，而武断地确定一个对应关系容易造成错误，导致最终话题检测效果难以接受。第二类方法是机器翻译办法，先将外文新闻翻译成母语，然后将母语新闻归类为不同的话题。这个方法的主要问题是机器翻译系统准确度低，时间复杂度高，难以快速、准确地满足人们的需求，无法达到实用水平。随着语义词典和平行语料库的出现，融合语义知识和跨语言统计信息的跨语言话题检测研究逐渐引起了研究者的兴趣。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何提供一种汉英跨语言新闻话题检测方案，并提高跨语言新闻话题检测的准确度。

(二)技术方案

为解决上述技术问题，本发明提供了一种汉英跨语言新闻话题检测方法，包括以下步骤：

S1、将跨语言新闻切分为语句，再将所述语句切分为词汇，所述跨语言新闻包括汉语新闻和英语新闻；

S2、将切分后的汉语新闻和英语新闻表示为跨语言广义向量空间内的跨语言向量；

S3、计算汉-汉新闻之间、汉-英新闻之间及英-英新闻之间的语义相似度；

S4、基于步骤S3的计算结果对跨语言新闻进行基于语义的话题聚类，从而找出若干个跨语言话题。

步骤S1中，在进行语句切分时采用标点符号判断语句边界；在进行汉语词汇切分时采取双向最大匹配策略判断词汇边界；在进行英语词汇切分时借助空格字符和标点符号判断词汇边界。

步骤S2包括：

S21、根据汉英语义知识和汉英平行语料的统计信息，计算词汇间的语义相似度，包括同语言词汇间的语义相似度和汉英跨语言词汇间的语义相似度；