[发明专利]基于语义的社交媒体非规范词纠正方法在审

专利信息
申请号: 201710829908.7 申请日: 2017-09-15
公开(公告)号: CN107577668A 公开(公告)日: 2018-01-12
发明(设计)人: 费高雷;郑夏;李元磊;胡光岷 申请(专利权)人: 电子科技大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 成都宏顺专利代理事务所(普通合伙)51227 代理人: 周永宏
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 语义 社交 媒体 规范 纠正 方法
【权利要求书】:

1.基于语义的社交媒体非规范词纠正方法,其特征在于,包括:

S1、语义信息构建,采用GloVe模型获取每个单词的词向量,计算任意两个词向量之间的距离;

S2、非规范词识别,通过对推文进行预处理得到完整单词列表;将列表中的每个单词与字典集合中的单词进行比对;若成功匹配则列表中的该单词为规范词;否则为非规范词;

S3、对于步骤S2判断得到的非规范词,找出与其词向量距离较小的N各词向量对应的单词;找出这些单词中的规范单词,选择其中与非规范词向量最小的规范单词对其进行替换。

2.根据权利要求1所述的基于语义的社交媒体非规范词纠正方法,其特征在于,所述计算任意两个词向量之间的距离的方法为:欧几里得距离或明可夫斯基距离或切比雪夫距离或曼哈顿距离或马哈拉诺比斯距离或余弦夹角。

3.根据权利要求1所述的基于语义的社交媒体非规范词纠正方法,其特征在于,步骤S2所述预处理具体为:

A1、过滤推文噪声;所述推文噪声包括:无效字符以及乱码;

A2、提取包含话题的单词以及包含用户名的单词,得到话题话题词和用户名;

A3、去除重复词;

A4、采用所有非字母符号对英文单词进行分词处理。

4.根据权利要求3所述的基于语义的社交媒体非规范词纠正方法,其特征在于,步骤S2所述的字典集合至少包括:各常用英文字典、通过预处理得到的话题词以及用户名。

5.根据权利要求1所述的基于语义的社交媒体非规范词纠正方法,其特征在于,步骤S3还包括:

B1、采用单词间最小编辑距离d表示词形相似;

B2、通过设置词义参数α来表示词向量的质量,用该α乘以词向量间的距离l表示词义相似性;

B3、根据下式计算与非规范词关系紧密度最高的规范词;并根据该规范词来对费规范词进行纠正;

S(ω12)=d+β×l×α

其中,S(ω1,ω2)表示两个单词间的关系紧密度,S(ω1,ω2)值越小紧密度越高,β表示语义权重。

6.基于语义的社交媒体非规范词纠正方法,其特征在于,包括:

S1、语义信息构建,采用GloVe模型获取每个单词的词向量,计算任意两个词向量之间的距离;

S2、非规范词识别,通过对推文进行预处理得到完整单词列表;将列表中的每个单词与字典集合中的单词进行比对;若成功匹配则列表中的该单词为规范词;否则为非规范词;

S3、对于步骤S2判断得到的非规范词,利用PyEnchant和PyTypo对各待纠正非规范词进行处理,得到相应的纠错建议词列表;

遍历纠错建议词列表,计算列表中每一个建议单词与待纠正非规范词的最小编辑距离,得到词形相似度;计算各建议词向量与待纠正非规范词向量之间的距离,得到语义相似度;

根据下式结合词形相似度与语义相似度,对每一个建议词与待纠正非规范词计算出一个分值;对每一个待纠正非规范词将纠错建议词列表按照分值由低至高重新排序,最前面的建议词对非规范词进行替换;若纠错建议词列表为空,直接过滤该非规范词;

S(ω12)=d+β×l×α

其中,S(ω1,ω2)表示两个单词间的关系紧密度,S(ω1,ω2)值越小紧密度越高,β表示语义权重,α为词义参数,l为词向量间的距离。

7.根据权利要求6所述的基于语义的社交媒体非规范词纠正方法,其特征在于,所述计算任意两个词向量之间的距离的方法为:欧几里得距离或明可夫斯基距离或切比雪夫距离或曼哈顿距离或马哈拉诺比斯距离或余弦夹角。

8.根据权利要求6所述的基于语义的社交媒体非规范词纠正方法,其特征在于,步骤S2所述预处理具体为:

A1、过滤推文噪声;所述推文噪声包括:无效字符以及乱码;

A2、提取包含话题的单词以及包含用户名的单词,得到话题话题词和用户名;

A3、去除重复词;

A4、采用所有非字母符号对英文单词进行分词处理。

9.根据权利要求6所述的基于语义的社交媒体非规范词纠正方法,其特征在于,步骤S2所述的字典集合至少包括:各常用英文字典、通过预处理得到的话题词以及用户名。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710829908.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top