[发明专利]微博概括无效
申请号: | 201210453572.6 | 申请日: | 2012-11-13 |
公开(公告)号: | CN102982124A | 公开(公告)日: | 2013-03-20 |
发明(设计)人: | 安妮·路易斯;托德·纽曼 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 郎晓虹;李春晖 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 概括 | ||
1.一种方法,该方法包括:
处理(600)多个资源以构建词典,所述词典配置为使得能够概括多条微博;
使用(602)所述词典创建概念,至少一些个体概念包括含有多个词的语义标签;
将多条微博分配(604)给多个所述概念以有效地形成潜在簇;
计算(606)每个微博/簇对的成员分数;以及
使用(606)所述成员分数将微博分配给簇。
2.如权利要求1所述的方法,其中所述处理多个资源包括:使用共现技术来构建所述词典。
3.如权利要求1所述的方法,其中所述微博包括与公司相关的微博。
4.如权利要求1所述的方法,其中处理多个资源以构建词典包括:
构建含有与公司相关的名词的词典;
使用预定义的词窗口在与公司相关的提及之前和之后选词;以及
为至少一些个体词计算关联量度,所述关联量度反映所述词与公司提及一起出现的频率。
5.如权利要求1所述的方法,其中使用所述词典创建概念包括:利用上位词路径,所述语义标签含有来自所述上位词路径的多个词,该多个词出现在所述上位词路径的不同层级。
6.一种或更多种计算机可读存储介质,所述计算机可读介质包含计算机可读指令,当被执行时,所述计算机指令实施包括以下的方法:
利用与各簇相关的映射词上的熵量度来对各个簇排名(608),所述熵量度合并与所述映射词相关的情感值,所述簇与要被概括的微博相关;以及
概括(610)每个簇的内容。
7.如权利要求6所述的一种或更多种计算机可读存储介质,其中所述概括包括:根据概率量度选择一个或更多个句子,所述概率量度合并与所述一个或更多个句子中出现的词相关的情感度。
8.如权利要求6所述的一种或更多种计算机可读存储介质,其中所述微博与一个或更多个公司相关。
9.如权利要求6所述的一种或更多种计算机可读存储介质,其中所述排名包括:计算映射词的概率,其中映射词的概率合并相关情感值,情感值与微博被分成肯定、否定或中性类别的分类相关。
10.如权利要求6所述的一种或更多种计算机可读存储介质,其中所述排名包括:
计算映射词的概率,其中映射词的概率合并相关情感值;以及
计算将与簇的映射词相关的概率考虑在内的熵量度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210453572.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种热处理炉的密封装置
- 下一篇:可伸缩调整的工具罐结构