[发明专利]一种针对中文社交网络中中英文混合文本的规范方法在审
申请号: | 201410339719.8 | 申请日: | 2014-07-16 |
公开(公告)号: | CN104102630A | 公开(公告)日: | 2014-10-15 |
发明(设计)人: | 陈欢;张奇;黄萱菁 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;王洁平 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 中文 社交 网络 中英文 混合 文本 规范 方法 | ||
技术领域
本发明属于机器翻译技术领域,具体涉及一种针对中文社交网络中中英文混合文本的规范方法。
背景技术
近些年来,随着科技的进步,越来越多的人们开始使用互联网。人们在互联网上浏览并且发表信息,各大网站每天都能接收到大量的用户提交信息。很多自然语言处理工作已经开始关注网络文本,通过网路文本的分析,可以得到许多用户聚类,用户情感倾向,用户喜好等信息,这些海量信息具有巨大的价值。
用户生成信息最多的地方之一便是社交网络。二十年来,国内外有许多著名社交网络应运而生。社交网络上每天都能产生海量的用户文本,这些文本最大的特点就是不规范。用户文本中可能夹杂着诸如多语言混合,表情,特殊符号,缩略语等,这些文本给现存的自然语言处理工作带来了很大的障碍。国内外已有很多研究专注于文本纠错工作,试图将非规范文本中混合的非规范词替换成相同含义的规范词,这样能极大地方便后续的自然语言处理工作。
在中国,网民数目在2014年已经超过了6亿,这就致使每天中文社交网络也会产生海量的用户文本。而这些年来信息的国界性越来越不明显,许多人倾向于在社交网络中使用更有特点的文字来表达自己的看法。作为网民中最活跃也是数目最多的年轻人来说,他们发表的文本本身就更具有特点。新的语法,词汇等往往在这个时候产生,这些都给传统的自然语言处理工作带来了障碍。其中最显著的现象就是中文中混杂入其他语言,例如英文,日文,法文等。
国内外有许多文本纠错方面的研究。英文文本纠错工作中很早便有人将该工作看作是翻译工作,即将非规范英文词汇看作是源语言,将其对应的规范英文词汇看作是目标语言,通过传统的机器翻译模型完成工作。后来由于发现到英文非规范词的产生形式往往具有一定规则,便利用到了音位和字形上的特点为规范的英文词生成不规范词,从而逆向解决了这个问题。上下文信息往往对于两个相同含义词的识别有重要参考作用,一些工作针对规范词和非规范词共同出现的上下文信息来建立两者之间的联系,从而完成规范化工作。在中国,也有一些工作通过搜索的方式,构建非规范词字典,从而将这些未登录词转换为登陆词。
与英文不同,中文往往在形式,发音,组合上有更多的变种,许多英文文本纠错的工作在中文上并不适用,这也致使中文文本规范化工作更具有挑战性。
发明内容
为了克服现有技术的不足,本发明的目的在于提供一种针对中文社交网络中中英混合文本的规范方法,其将英文词翻译成对应含义的中文词,这样在方便阅读的同时,也为后续自然语言处理工作提供了很好的数据预处理工作。
本发明提供一种针对中文社交网络中中英混合文本的规范方法,其利用噪声信道模型的思路,将改进的话题翻译模型和神经网络语言模型进行结合,把社交网络中用户提交文本包含的英文单词看作是非规范词,而将该英文单词对应的中文翻译看作是规范词,从而进行文本规范化。具体步骤如下:
(1)非规范词识别
通过人为网站爬取的方式,构建英汉电子词典,进行筛选中文社交网络中混杂英文单词的用户文本;
(2)非规范词对应规范词的生成
利用用户文本在中文社交网络语义空间和中文非社交网络语义空间的公共词,训练出经过话题映射的话题翻译模型,从而生成非规范词的翻译词列表,同时赋予翻译词话题翻译概率。
(3)非规范词对应规范词的选择
首先根据词序列信息和用户历史信息,通过反向传播算法训练出神经网络语言模型,对社交网络语义空间中的用户文本打分,得到整句语言分数;再根据步骤(2)中获得的话题翻译概率和整句语言分数的乘积,对翻译词列表进行重新排序,从而选择出概率最大的非规范词对应规范词。
本发明中,所述话题翻译模型利用中文社交网络语义空间和中文非社交网络语义空间训练语料的公有词建立话题映射关系,再根据英文词在中文社交网络语义空间中的话题概率分布,计算出该英文词在中文非社交网络语义空间的话题分布,最后结合在非社交网络语义空间的双语对齐语料统计的中文词与英文词共同出现的频率,计算出单词的话题翻译概率。
附图说明
图1为用户历史相关信息的神经网络语言模型图。
具体实施方式
针对中文社交网络中的中英文混合文本,主要分三个部分来实现对英文词的规范化工作。
1、非规范词识别
通过人为网络爬取的方式,构建英汉电子词典。词典中包含绝大部分英文单词和其对应的中文翻译。这样可以有效的筛选出目标文本,即中文社交网络中混杂英文单词的用户文本。
2、非规范英文词对应中文翻译词生成
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410339719.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:隔离膜
- 下一篇:一种丁烯氧化脱氢制丁二烯的废水预处理工艺