[发明专利]文本情感分析方法及系统在审
| 申请号: | 201510185153.2 | 申请日: | 2015-04-17 |
| 公开(公告)号: | CN104731773A | 公开(公告)日: | 2015-06-24 |
| 发明(设计)人: | 张翔 | 申请(专利权)人: | 深圳证券信息有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 无 | 代理人: | 无 |
| 地址: | 518028 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 情感 分析 方法 系统 | ||
1.一种文本情感分析方法,其特征在于,该方法包括:
根据标点符号对所述文本进行分割,得到至少一个短文本块;
对含有相同的关注实体的所述短文本块进行合并,得到长文本块;
对所述长文本块进行情感分析,得到所述长文本块的情感分值;
综合含有相同关注实体的所述长文本块的情感分值,得到该关注实体的情感分值。
2.根据权利要求1所述的文本情感分析方法,其特征在于,所述对含有相同的关注实体的所述短文本块进行合并包括:
当位置相邻的两个短文本块中至少一个不含有任何关注实体,并且,其中位置在前的短文本块以逗号结束或位置在后的短文本块中无中文字符时,将所述相邻的两个短文本块合并。
3.根据权利要求1或2所述的文本情感分析方法,其特征在于,所述对含有相同的关注实体的所述短文本块进行合并包括:
当位置相邻的两个短文本块均含有且仅含有一个共同的关注实体时,将所述相邻的两个短文本块合并;或者
当位置不相邻的两个短文本块均含有且仅含有一个共同的关注实体,且所述不相邻的两个短文本块之间的短文本块均不含有任何关注实体时,将所述不相邻的两个短文本块及其之间的短文本块全部合并。
4.根据权利要求1所述的文本情感分析方法,其特征在于,所述综合含有相同关注实体的所述长文本块的情感分值包括:
计算含有相同关注实体的所有长文本块的平均情感分值,得到该关注实体的情感分值。
5.根据权利要求1所述的文本情感分析方法,其特征在于,所述综合含有相同关注实体的所述长文本块的情感分值包括:
计算含有相同关注实体的所有长文本块的平均字符串长度,得到该关注实体的重要度分值。
6.一种文本情感分析系统,其特征在于,该系统包括文本分割单元、文本合并单元、情感分析单元、综合计算单元,其中:
文本分割单元,用于根据标点符号对所述文本进行分割,以得到至少一个短文本块;
文本合并单元,用于对含有相同的关注实体的所述短文本块进行合并,以得到长文本块;
情感分析单元,用于对所述长文本块进行情感分析,以得到所述长文本块的情感分值;
综合计算单元,用于综合含有相同关注实体的所述长文本块的情感分值,以得到该关注实体的情感分值。
7.根据权利要求6所述的文本情感分析系统,其特征在于,所述文本合并单元包括:
第一合并单元,用于当位置相邻的两个短文本块中至少一个不含有任何关注实体,并且,其中位置在前的短文本块以逗号结束或位置在后的短文本块中无中文字符时,将所述相邻的两个短文本块合并。
8.根据权利要求6或7所述的文本情感分析系统,其特征在于,所述文本合并单元包括:
第二合并单元,用于当位置相邻的两个短文本块均含有且仅含有一个共同的关注实体时,将所述相邻的两个短文本块合并;或者
当位置不相邻的两个短文本块均含有且仅含有一个共同的关注实体,且所述不相邻的两个短文本块之间的短文本块均不含有任何关注实体时,将所述不相邻的两个短文本块及其之间的短文本块全部合并。
9.根据权利要求6所述的文本情感分析系统,其特征在于,所述综合计算单元包括:
情感计算单元,用于计算含有相同关注实体的所有长文本块的平均情感分值,得到该关注实体的情感分值。
10.根据权利要求6所述的文本情感分析系统,其特征在于,所述综合计算单元包括:
重要度计算单元,用于计算含有相同关注实体的所有长文本块的平均字符串长度,得到该关注实体的重要度分值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳证券信息有限公司;,未经深圳证券信息有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510185153.2/1.html,转载请声明来源钻瓜专利网。





