[发明专利]一种针对中文社交网络中中英文混合文本的规范方法在审
| 申请号: | 201410339719.8 | 申请日: | 2014-07-16 |
| 公开(公告)号: | CN104102630A | 公开(公告)日: | 2014-10-15 |
| 发明(设计)人: | 陈欢;张奇;黄萱菁 | 申请(专利权)人: | 复旦大学 |
| 主分类号: | G06F17/28 | 分类号: | G06F17/28 |
| 代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;王洁平 |
| 地址: | 200433 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 针对 中文 社交 网络 中英文 混合 文本 规范 方法 | ||
1.一种针对中文社交网络中中英文混合文本的规范方法,其特征在于,其把社交网络中用户提交文本包含的英文单词看作是非规范词,将该英文单词对应的中文翻译看作是规范词进行文本规范化;具体步骤如下:
(1)非规范词识别
通过人为网站爬取的方式,构建英汉电子词典,进行筛选中文社交网络中混杂英文单词的用户文本;
(2)非规范词对应规范词的生成
利用用户文本在中文社交网络语义空间和中文非社交网络语义空间的公共词,训练出经过话题映射的话题翻译模型,从而生成非规范词的翻译词列表,同时赋予翻译词话题翻译概率。
(3)非规范词对应规范词的选择
首先根据词序列信息和用户历史信息,通过反向传播算法训练出神经网络语言模型,对社交网络语义空间中的用户文本打分,得到整句语言分数;再根据步骤(2)中获得的话题翻译概率和整句语言分数的乘积,对翻译词列表进行重新排序,从而选择出概率最大的非规范词对应规范词。
2.根据权利要求1所述的规范方法,其特征在于:所述话题翻译模型利用中文社交网络语义空间和中文非社交网络语义空间训练语料的公有词建立话题映射关系,再根据英文词在中文社交网络语义空间中的话题概率分布,计算出该英文词在中文非社交网络语义空间的话题分布,最后结合在非社交网络语义空间的双语对齐语料统计的中文词与英文词共同出现的频率,计算出单词的话题翻译概率。
3.根据权利要求1所述的规范方法,其特征在于:所述用户历史信息是指用户在社交网络中发表过的文本列表。
4.根据权利要求1或2所述的规范方法,其特征在于:单词的话题翻译概率通过下式计算得得到:
其中:表示英文单词在中文话题下对应的翻译成中文单词的概率;P(tc_out|tc_in).表示社交网络和非社交网络两个语义空间的话题映射关系;表示英文词在某个话题下翻译成中文词的概率;表示需要进行翻译的英文词,表示对应的翻译中文词,tc_out表示非社交网络语义空间的话题,tc_in表示社交网络语义空间的话题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410339719.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:隔离膜
- 下一篇:一种丁烯氧化脱氢制丁二烯的废水预处理工艺





