[发明专利]基于语义的社交媒体非规范词纠正方法在审

申请号：	201710829908.7	申请日：	2017-09-15
公开（公告）号：	CN107577668A	公开（公告）日：	2018-01-12
发明（设计）人：	费高雷;郑夏;李元磊;胡光岷	申请（专利权）人：	电子科技大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	成都宏顺专利代理事务所(普通合伙)51227	代理人：	周永宏
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于语义社交媒体规范纠正方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于数据挖掘领域，特别涉及一种非规范词检测及识别技术。

背景技术

随着Web2.0的兴起，互联网模式由专业人员织网转变为所有用户参与织网，在形式更为民主化的同时，也意味着将有大量来自用户的低成本低质量的信息产生。社交媒体是用户发布和传播信息的重要平台，允许用户不限地点、不限时间分享自己的生活和想法。Twitter是一家面向全球范围的社交网站，它的特点在于用户发表推文时有字符数量限制。这就导致了用户可能使用更便捷简短的缩写或网络词汇来表达观点，将产生大量的非规范词汇，影响相关研究者对推文的后续分析。所以，对非规范词汇进行纠正是非常必要的。

张仰森教授提出英文文本中主要出现非词错误和真词错误两种词汇错误情况，非词错误指在字典中无法找到的书写不规范词汇，而真词错误指可在字典中找到但不符语境的语法错误类词汇。本发明仅针对非词错误情况。出现非词错误的非规范词一般指拼写错误词汇、延长词以及无意义词汇。

首先对于非规范词的检测和识别方面，目前并没有很多有效方法。最常用的就是查字典法，也就是通过遍历字典库查找与待识别词相匹配的单词，如果有则判定为规范词，反之则判定为非规范词。也有学者利用查找N-gram表的方法进行非规范词识别，即遍历已有的N-gram表并统计其出现次数，当词频低于某阈值则判定为非规范词。

对于非规范词纠正方面，已有一些较为有效的方法和研究，且已应用于部分搜索引擎、输入法等商业产品中。最常用的有最小编辑距离法、词干法、统计法、总结规则法以及构建字典法等。

要将自然语言交给机器学习中的算法来处理，首先就要将语言数学化，一个最常用的方法就是把每个词表示为一个词向量。词向量是一个很好的表现单词语义的方式。其中One-hot Representation最直观，这种方法把每个词表示为一个很长的向量，只有一个维度的值为1，代表了当前的词，其余均为0。此方法虽简单但会带来维度灾难，后来学者提出了Distributed Representation的方法，表示的一种低维实数向量。当前常用获取词向量的模型有：①Word2Vector模型②GloVe模型③LSA矩阵分解模型④PLSA潜在语义分析概率模型。

以Twitter为例的社交媒体不断产生大量无意义的噪声信息以及重复冗余的信息，比如用户的闲聊及转发。为方便研究者对社交媒体数据的分析，文本信息去噪以及规范化是很有必要的。随着自然语言处理技术的发展以及单词规范化和单词语义表征的深度研究，近些年出现了很多针对于普通文本的规范化系统，然而这些传统方法大多受限于单词的词形，使得其在Twitter中的应用效果大大降低。

发明内容

为解决上述技术问题，本申请提出一种基于语义的社交媒体非规范词纠正方法，在常规的拼写纠错技术上，加入了非规范词汇的语义信息作为另一考虑因素，优化了最短编辑距离法难以处理词形差异较大的非规范词的问题。

本发明采用的技术方案为：基于语义的社交媒体非规范词纠正方法，包括：

S1、语义信息构建，采用GloVe模型获取每个单词的词向量，计算任意两个词向量之间的距离；

S2、非规范词识别，通过对推文进行预处理得到完整单词列表；将列表中的每个单词与字典集合中的单词进行比对；若成功匹配则列表中的该单词为规范词；否则为非规范词；

S3、对于步骤S2判断得到的非规范词，找出与其词向量距离较小的N各词向量对应的单词；找出这些单词中的规范单词，选择其中与非规范词向量最小的规范单词对其进行替换。

进一步地，所述计算任意两个词向量之间的距离的方法为：欧几里得距离或明可夫斯基距离或切比雪夫距离或曼哈顿距离或马哈拉诺比斯距离或余弦夹角。

进一步地，步骤S2所述预处理具体为：

A1、过滤推文噪声；所述推文噪声包括：无效字符以及乱码；

A2、提取包含话题的单词以及包含用户名的单词，得到话题话题词和用户名；

A3、去除重复词；

A4、采用所有非字母符号对英文单词进行分词处理。