[发明专利]社交网络平台上话题关键词自适应扩充的方法及系统有效
申请号: | 201310018004.8 | 申请日: | 2013-01-17 |
公开(公告)号: | CN103092956A | 公开(公告)日: | 2013-05-08 |
发明(设计)人: | 周异;叶辉;徐勇;周曲;陈凯 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 郭国中 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 社交 网络 平台 话题 关键词 自适应 扩充 方法 系统 | ||
1.一种社交网络平台上话题关键词自适应扩充的方法,其特征在于包括以下步骤:
步骤1:基于半监督的话题语料库和话题种子词库的建立;
a.人工标注少量话题相关的正负样本,建立语料库,并且标注少量话题关键词建立种子词库集合KW;
b.语料库半自动增加:利用种子词在社交网络上搜索相关的话题信息,对搜索到的信息进行TF-IDF话题相关性匹配,匹配结果按相关性数值从高到低排列,结果再由人工判断是否跟话题相关,根据人工判断结果将信息加入到正负样本库中,扩充样本库;
步骤2:对语料库中正样本信息进行分词,得到不包含种子词的分词词汇集合W;
步骤3:确定集合KW和W中种子词词频和分词词汇的出现频率和词频,选取大于最小的种子词出现频率t1或大于最小的种子词词频t2的分词词汇构成集合G1;
步骤4:确定初选集合G1中每个词gi与每个种子词Kj在正样本信息中的相关性,选取相关性大于阈值t3的词汇构成集合G2;
步骤5:判决集合G2中词汇的影响力,选取影响力大于阈值t4的词汇构成新集合G3;
步骤6:对集合G3中的单字运用排列组合合并成可能的词加入到集合G3并去除单字;
步骤7:将步骤6得到的集合G3中的所有词加入到关键词扩充库中。
2.根据权利要求1所述的社交网络平台上话题关键词自适应扩充的方法,其特征在于步骤1中:
1.a所述的正负样本,其中正样本是跟话题相关的,负样本是跟话题不相关的;在微博社交平台,一个样本是指整条微博,而在博客或论坛,是指一个段落;
1.a所述的标注少量关键词建立种子词库,少量关键词指不少于5个话题关键词,种子词库集合为KW:{K1,…,Ki,…,KM},M为种子词的个数。
3.根据权利要求1所述的社交网络平台上话题关键词自适应扩充的方法,其特征在于步骤2中,对正样本信息进行分词,是指采用常用分词软件对信息文字进行去形容词、虚词操作,具体实现如下:假设语料库现有正样本信息N条,表示为{Y1,Y2,…,YN},分词后得到所有词汇集合W{w1,w2,…wi,..},其中wi≠wj当i≠j,且集合W不包括集合KW中的任意元素。
4.根据权利要求1所述的社交网络平台上话题关键词自适应扩充的方法,其特征在于步骤3中,具体过程如下:
1)统计非种子词汇wi与种子词Kj在正样本中的出现频率,某词汇的出现频率被定义为包含该词汇的样本数与正样本总数之比,其中,非种子词汇出现频率用fi_1表示,种子词汇出现频率用Kfj_1表示:
2)定义非种子词汇wi与种子词Kj在正样本中出现的相对词频,为某词汇在正样本中出现的总次数与正样本中所有种子词出现的次数之比,非种子词汇相对词频用fi_1表示,种子词汇相对词频用Kfi_2表示:
3)取t1=min({Kfi_1}),取最小的种子出现频率;t2=min({Kfi_2}),取最小的种子相对词频;
4)选择词汇集合W中满足下列条件的词构成初选集合G1:fi_1>t1或fi_2>t2。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310018004.8/1.html,转载请声明来源钻瓜专利网。