[发明专利]识别整体符号串的方法和装置有效
| 申请号: | 201510120020.7 | 申请日: | 2015-03-18 |
| 公开(公告)号: | CN104699662B | 公开(公告)日: | 2017-12-22 |
| 发明(设计)人: | 徐金安;张子兴;呼啸;马文嘉;黄天立;闫麟阁;徐乾舜;陈钰枫 | 申请(专利权)人: | 北京交通大学 |
| 主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/30 |
| 代理公司: | 北京三高永信知识产权代理有限责任公司11138 | 代理人: | 滕一斌 |
| 地址: | 100044*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 识别 整体 符号 方法 装置 | ||
技术领域
本发明涉及自然语言处理研究领域,特别涉及一种识别整体符号串的方法和装置。
背景技术
当前,随着计算机网络和通信技术的发展,移动终端越来越普及,电子邮件、短信、QQ、微信、微博等各种社交媒体越来越多渗透到人们的日常工作和生活。在人们的日常交流活动中,短文本大量出现,且文字中夹杂各种各样有多重符号串组成的表情符号。
表情符号的大量出现丰富人们日常情感交流活动的同时,给短文本的信息处理造成一些技术难题。比如,当利用短文本进行诸如网络舆情分析等汉语文本信息处理时,需要先利用表情符号词典来识别出短文本中的哪些符号串是个整体的表情符号,然后再对短文本进行信息处理。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
由于表情符号的多样性,难以构建一个非常完整的表情符号字典,不在表情符号字典中的表情符号常常被分割成为单个的字,被当作垃圾信息过滤掉,造成信息缺失,影响文本信息处理的质量和精度。
发明内容
为了解决现有技术中的问题,本发明实施例提供了一种识别整体符号串的方法和装置。所述技术方案如下:
一方面,本发明提供了一种识别整体符号串的方法,所述方法包括:
提取文本信息中包含的符号串;
从所述符号串中获取具有对称性的符号对;
根据所述获取的符号对计算所述符号串的对称度;
如果所述符号串的对称度满足预设条件,则确定所述符号串为整体符号串。
进一步地,所述从所述符号串中获取具有对称性的符号对,包括:
确定所述符号串的中心位置;
根据所述中心位置,从所述符号串中获取位置对称的两个字符;
如果所述两个字符具有对称性,则将所述两个字符组成具有对称性的符号对。
进一步地,所述将所述两个字符确定具有对称性的符号对之前,还包括:
确定所述两个字符是否相同或形状反向,如果所述两个字符相同或形状反向,则判断出所述两个字符具有对称性。
进一步地,所述提取文本信息中包含的符号串之后,还包括:
获取所述符号串中具有对称性的子符号串;
从所述子符号串中获取具有对称性的符号对;
根据所述获取的符号对计算所述子符号串的对称度;
如果所述子符号串的对称度满足预设条件,则确定所述子符号串为整体符号串。
进一步地,所述获取所述符号串中具有对称性的子符号串,包括:
从所述符号串中获取任意相同或形状反向的两个字符或两个字符串;
从所述符号串中获取由所述两个字符分别作为开始字符和结束字符的子字符串,或者获取由所述两个字符串分别作为开始字符串和结束字符串的子符号串;
将所述获取的子符号串确定为具有对称性的子符号串。
进一步地,所述提取文本信息中包含的符号串,包括:
对文本信息进行分词,得到所述文本信息包括的分词,所述文本信息包括的各分词的位置顺序与所述各分词在所述文本信息中的位置顺序一致;
根据预设的正则表达式,从所述文本信息包括的分词中提取与所述正则表达式匹配的符号串。
进一步地,所述确定所述符号串为整体符号串之后,还包括:
在所述文本信息中对所述整体符号串的两个边界字符和位于所述两个边界字符之间的中间字符进行标注。
另一方面,本发明提供了一种识别整体符号串的装置,所述装置包括:
提取模块,用于提取文本信息中包含的符号串;
获取模块,用于从所述符号串中获取具有对称性的符号对;
计算模块,用于根据所述获取的符号对计算所述符号串的对称度;
确定模块,用于如果所述符号串的对称度满足预设条件,则确定所述符号串为整体符号串。
进一步地,所述获取模块包括:
第一确定单元,用于确定所述符号串的中心位置;
第一获取单元,用于根据所述中心位置,从所述符号串中获取位置对称的两个字符;
组成单元,用于如果所述两个字符具有对称性,则将所述两个字符组成具有对称性的符号对。
进一步地,所述提取模块,还用于获取所述符号串中具有对称性的子符号串;
所述获取模块,还用于从所述子符号串中获取具有对称性的符号对;
所述计算模块,还用于根据所述获取的符号对计算所述子符号串的对称度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京交通大学,未经北京交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510120020.7/2.html,转载请声明来源钻瓜专利网。





