[发明专利]一种针对中文社交网络中中英文混合文本的规范方法在审

申请号：	201410339719.8	申请日：	2014-07-16
公开（公告）号：	CN104102630A	公开（公告）日：	2014-10-15
发明（设计）人：	陈欢;张奇;黄萱菁	申请（专利权）人：	复旦大学
主分类号：	G06F17/28	分类号：	G06F17/28
代理公司：	上海正旦专利代理有限公司 31200	代理人：	陆飞;王洁平
地址：	200433 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种针对中文社交网络中英文混合文本规范方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种针对中文社交网络中中英文混合文本的规范方法，其特征在于，其把社交网络中用户提交文本包含的英文单词看作是非规范词，将该英文单词对应的中文翻译看作是规范词进行文本规范化；具体步骤如下：

(1)非规范词识别

通过人为网站爬取的方式，构建英汉电子词典，进行筛选中文社交网络中混杂英文单词的用户文本；

(2)非规范词对应规范词的生成

利用用户文本在中文社交网络语义空间和中文非社交网络语义空间的公共词，训练出经过话题映射的话题翻译模型，从而生成非规范词的翻译词列表，同时赋予翻译词话题翻译概率。

(3)非规范词对应规范词的选择

首先根据词序列信息和用户历史信息，通过反向传播算法训练出神经网络语言模型，对社交网络语义空间中的用户文本打分，得到整句语言分数；再根据步骤(2)中获得的话题翻译概率和整句语言分数的乘积，对翻译词列表进行重新排序，从而选择出概率最大的非规范词对应规范词。

2.根据权利要求1所述的规范方法，其特征在于：所述话题翻译模型利用中文社交网络语义空间和中文非社交网络语义空间训练语料的公有词建立话题映射关系，再根据英文词在中文社交网络语义空间中的话题概率分布，计算出该英文词在中文非社交网络语义空间的话题分布，最后结合在非社交网络语义空间的双语对齐语料统计的中文词与英文词共同出现的频率，计算出单词的话题翻译概率。

3.根据权利要求1所述的规范方法，其特征在于：所述用户历史信息是指用户在社交网络中发表过的文本列表。

4.根据权利要求1或2所述的规范方法，其特征在于：单词的话题翻译概率通过下式计算得得到：

φ(c^|e^)=Σtc_outΣtc_inφ(c^|e^,tc_out)·P(tc_out|tc_in)·P(tc_in|e^)]]>

其中：表示英文单词在中文话题下对应的翻译成中文单词的概率；P(t_{c_out}|t_{c_in}).表示社交网络和非社交网络两个语义空间的话题映射关系；表示英文词在某个话题下翻译成中文词的概率；表示需要进行翻译的英文词，表示对应的翻译中文词，t_{c_out}表示非社交网络语义空间的话题，t_{c_in}表示社交网络语义空间的话题。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于复旦大学，未经复旦大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410339719.8/1.html，转载请声明来源钻瓜专利网。

上一篇：隔离膜
下一篇：一种丁烯氧化脱氢制丁二烯的废水预处理工艺

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种针对中文社交网络中中英文混合文本的规范方法在审

专利文献下载