[发明专利]一种针对中文社交网络中中英文混合文本的规范方法在审
申请号: | 201410339719.8 | 申请日: | 2014-07-16 |
公开(公告)号: | CN104102630A | 公开(公告)日: | 2014-10-15 |
发明(设计)人: | 陈欢;张奇;黄萱菁 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;王洁平 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于机器翻译技术领域,具体为一种针对中文社交网络中中英文混合文本的规范方法。其包括三个步骤:识别非规范词;利用隐藏话题翻译模型为英文词生成翻译替换词;结合用户历史信息相关的神经网络语言模型对翻译替换词进行重新排序,实现非规范词对应规范词的选择。本发明的有益效果在于:本发明针对网络文本进行预处理,从而使得网络文本可以适应多数自然语言处理工作;同时由于我们使用了非社交网络语义空间的双语对齐训练语料,通过话题的映射来对应到社交网络语义空间上,本发明方法具有很好的扩展性。也使得翻译正确率具有保障。 | ||
搜索关键词: | 一种 针对 中文 社交 网络 中英文 混合 文本 规范 方法 | ||
【主权项】:
一种针对中文社交网络中中英文混合文本的规范方法,其特征在于,其把社交网络中用户提交文本包含的英文单词看作是非规范词,将该英文单词对应的中文翻译看作是规范词进行文本规范化;具体步骤如下:(1)非规范词识别通过人为网站爬取的方式,构建英汉电子词典,进行筛选中文社交网络中混杂英文单词的用户文本;(2)非规范词对应规范词的生成利用用户文本在中文社交网络语义空间和中文非社交网络语义空间的公共词,训练出经过话题映射的话题翻译模型,从而生成非规范词的翻译词列表,同时赋予翻译词话题翻译概率。(3)非规范词对应规范词的选择首先根据词序列信息和用户历史信息,通过反向传播算法训练出神经网络语言模型,对社交网络语义空间中的用户文本打分,得到整句语言分数;再根据步骤(2)中获得的话题翻译概率和整句语言分数的乘积,对翻译词列表进行重新排序,从而选择出概率最大的非规范词对应规范词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410339719.8/,转载请声明来源钻瓜专利网。
- 上一篇:隔离膜
- 下一篇:一种丁烯氧化脱氢制丁二烯的废水预处理工艺