[发明专利]一种基于时间窗口和语义的变体词规范化的方法和系统有效
申请号: | 201710308896.3 | 申请日: | 2017-05-04 |
公开(公告)号: | CN107315734B | 公开(公告)日: | 2019-11-26 |
发明(设计)人: | 沙灜;施振辉;李锐;梁棋;邱咏钦;王斌 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 11200 北京君尚知识产权代理有限公司 | 代理人: | 司立彬<国际申请>=<国际公布>=<进入 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 时间 窗口 语义 变体 规范化 方法 系统 | ||
本发明公开了一种基于时间窗口和语义的变体词规范化的方法和系统。本方法为:1)根据给定变体词的出现时间,选取社交网络中该出现时间之前的设定时间段内的语料,作为候选语料库集合D1;2)将该候选语料库集合D1中和该变体词所在语料语义相似的语料加入到候选语料库集合D2;3)从该集合D2中提取出候选词,得到一候选词集合;4)根据每一候选词和变体词的字面相似度以及上下文特征相似度计算每对候选词和变体词的得分,根据计算结果确定该变体词对应的候选词,将确定出的候选词作为该变体词的规范词。本系统包括采集模块、过滤模块、获取模块和规范词获取模块。本发明使得社交网络的文本变的更加规范,便于舆情分析、热点时间追踪。
技术领域
本发明涉及社交网络数据分析领域,是一种基于时间窗口和语义的变体词规范化的方法,以实现更有针对性、准确性的社交网络中变体词的规范化的方法和系统。
背景技术
随着社交网络的飞速发展,每天有亿级的信息发布在社交网络平台中,带来了信息的爆炸式增长。信息的形式多种多样,包括文本、图片、音频、视频等。其中社交网络中的文本具有随意性、非正规性等特点。变体词就是网络语言作为一种不规范语言的显著特色,人们往往处于避免审查、表达情感、讽刺、娱乐等需求将相对严肃、规范、敏感的词用相对不规范、不敏感的词来代替,用来代替原来词的新词就叫做变体词(Morph)。变体词和其对应的原来的词(目标实体词)会分别在非规范文本和规范文本中共存,甚至变体词会渗透到规范文本中。变体词使行文更加生动活泼,相关事件、消息也传播得更加广泛。但是因为变体词通常是某种隐喻,已不再是其表面字词的意义了,从而使网络上文体与正式文本(如新闻)具有巨大的差异。由此如何识别出这些变体词所对应的目标实体词,即规范化,对于下游的自然语言处理技术具有重要的意义。进一步,研究变体词的规范化对于舆情分析、热点事件追踪等都有重要意义。
变体词的规范化
变体词规范化指变体词的解析,即找到变体词所对应的目标实体词。
形式化描述如下:已知文档集合D={d1,d2,…,d|D|},文档集合D中唯一词集合为T={t1,t2,…,t|T|},定义候选的变体词m′j是T中的一个唯一词tj。则定义一个候选变体词的提及(morph mention)为mj在一个特定文档dj里的第p次出现。
这里需要注意如果一个提及的表面形式是与mi相同的,但是如果其指向其原来的含义,那么就不认为是变体词的提及。
例如:如果词语“小马哥”通过上下文获知其指向的是香港电影《英雄本色》里的一角色,则就不是一个变体词的提及;但是如果其指向的是一公司总裁马某某,则认为是一个变体词的提及。
因此变体词规范化任务是针对每一个变体词提及解析出其目标实体词e1。针对上例,则需要解析出变体词“小马哥”的目标实体词为“马某某”。
最终目标是获得变体词对应的目标实体词。
变体词的特点
1)变体词可以看作是一种利用自然语言处理技术来传播秘密消息的一种手段。绝大多数的变体词可以看作是基于深层语义和背景知识的编码,而不是简单的字典式的替换,因此变体词更接近于行话、黑话、术语等。
2)变体词与目标实体词之间的映射关系不是全射关系,也即不是标准的对应关系,多个变体词可以对应一个目标实体词,一个目标实体词也可以对应多个变体词。
3)社交网络平台对变体词的产生和发展起着至关重要的推动作用。社交网络作为一种自媒体,更是激发了广大群众的创造欲望、集成了广大群众的集体智慧。众多流行的变体词都是互联网上普通用户自发创造获得广泛传播的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710308896.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种中式英语的发现方法及系统
- 下一篇:用于笔记整理的方法及设备