[发明专利]基于语义的社交媒体非规范词纠正方法在审
申请号: | 201710829908.7 | 申请日: | 2017-09-15 |
公开(公告)号: | CN107577668A | 公开(公告)日: | 2018-01-12 |
发明(设计)人: | 费高雷;郑夏;李元磊;胡光岷 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 成都宏顺专利代理事务所(普通合伙)51227 | 代理人: | 周永宏 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 社交 媒体 规范 纠正 方法 | ||
1.基于语义的社交媒体非规范词纠正方法,其特征在于,包括:
S1、语义信息构建,采用GloVe模型获取每个单词的词向量,计算任意两个词向量之间的距离;
S2、非规范词识别,通过对推文进行预处理得到完整单词列表;将列表中的每个单词与字典集合中的单词进行比对;若成功匹配则列表中的该单词为规范词;否则为非规范词;
S3、对于步骤S2判断得到的非规范词,找出与其词向量距离较小的N各词向量对应的单词;找出这些单词中的规范单词,选择其中与非规范词向量最小的规范单词对其进行替换。
2.根据权利要求1所述的基于语义的社交媒体非规范词纠正方法,其特征在于,所述计算任意两个词向量之间的距离的方法为:欧几里得距离或明可夫斯基距离或切比雪夫距离或曼哈顿距离或马哈拉诺比斯距离或余弦夹角。
3.根据权利要求1所述的基于语义的社交媒体非规范词纠正方法,其特征在于,步骤S2所述预处理具体为:
A1、过滤推文噪声;所述推文噪声包括:无效字符以及乱码;
A2、提取包含话题的单词以及包含用户名的单词,得到话题话题词和用户名;
A3、去除重复词;
A4、采用所有非字母符号对英文单词进行分词处理。
4.根据权利要求3所述的基于语义的社交媒体非规范词纠正方法,其特征在于,步骤S2所述的字典集合至少包括:各常用英文字典、通过预处理得到的话题词以及用户名。
5.根据权利要求1所述的基于语义的社交媒体非规范词纠正方法,其特征在于,步骤S3还包括:
B1、采用单词间最小编辑距离d表示词形相似;
B2、通过设置词义参数α来表示词向量的质量,用该α乘以词向量间的距离l表示词义相似性;
B3、根据下式计算与非规范词关系紧密度最高的规范词;并根据该规范词来对费规范词进行纠正;
S(ω1,ω2)=d+β×l×α
其中,S(ω1,ω2)表示两个单词间的关系紧密度,S(ω1,ω2)值越小紧密度越高,β表示语义权重。
6.基于语义的社交媒体非规范词纠正方法,其特征在于,包括:
S1、语义信息构建,采用GloVe模型获取每个单词的词向量,计算任意两个词向量之间的距离;
S2、非规范词识别,通过对推文进行预处理得到完整单词列表;将列表中的每个单词与字典集合中的单词进行比对;若成功匹配则列表中的该单词为规范词;否则为非规范词;
S3、对于步骤S2判断得到的非规范词,利用PyEnchant和PyTypo对各待纠正非规范词进行处理,得到相应的纠错建议词列表;
遍历纠错建议词列表,计算列表中每一个建议单词与待纠正非规范词的最小编辑距离,得到词形相似度;计算各建议词向量与待纠正非规范词向量之间的距离,得到语义相似度;
根据下式结合词形相似度与语义相似度,对每一个建议词与待纠正非规范词计算出一个分值;对每一个待纠正非规范词将纠错建议词列表按照分值由低至高重新排序,最前面的建议词对非规范词进行替换;若纠错建议词列表为空,直接过滤该非规范词;
S(ω1,ω2)=d+β×l×α
其中,S(ω1,ω2)表示两个单词间的关系紧密度,S(ω1,ω2)值越小紧密度越高,β表示语义权重,α为词义参数,l为词向量间的距离。
7.根据权利要求6所述的基于语义的社交媒体非规范词纠正方法,其特征在于,所述计算任意两个词向量之间的距离的方法为:欧几里得距离或明可夫斯基距离或切比雪夫距离或曼哈顿距离或马哈拉诺比斯距离或余弦夹角。
8.根据权利要求6所述的基于语义的社交媒体非规范词纠正方法,其特征在于,步骤S2所述预处理具体为:
A1、过滤推文噪声;所述推文噪声包括:无效字符以及乱码;
A2、提取包含话题的单词以及包含用户名的单词,得到话题话题词和用户名;
A3、去除重复词;
A4、采用所有非字母符号对英文单词进行分词处理。
9.根据权利要求6所述的基于语义的社交媒体非规范词纠正方法,其特征在于,步骤S2所述的字典集合至少包括:各常用英文字典、通过预处理得到的话题词以及用户名。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710829908.7/1.html,转载请声明来源钻瓜专利网。