[发明专利]社交网络中的特征词库构建方法和系统有效
| 申请号: | 201410213845.9 | 申请日: | 2014-05-20 |
| 公开(公告)号: | CN104035969B | 公开(公告)日: | 2017-11-03 |
| 发明(设计)人: | 李金奎;谌贻荣 | 申请(专利权)人: | 微梦创科网络科技(中国)有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京市京大律师事务所11321 | 代理人: | 张璐,方晓明 |
| 地址: | 100080 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 社交 网络 中的 特征 词库 构建 方法 系统 | ||
1.一种社交网络中的特征词库构建方法,其特征在于,包括:
从博文语料集中获取待构建的特征词库所属领域的各种子博文;并对于获取的每个种子博文,将该种子博文分词后进行如下处理:
针对该种子博文的分词结果中的每个词汇,统计出该词汇的包括词频IF值的频率信息;根据各词汇的频率信息从该种子博文的分词结果中选择出该领域的特征候选词;词汇的频率信息还包括所述词汇的文档频率DF值和用户频率;
对于选择出的该领域的每个特征候选词,统计所述博文语料集中的各领域的种子博文中包含该特征候选词的领域个数,并将统计出的领域个数作为该特征候选词的领域频率;
针对该领域的每个特征候选词,根据该特征候选词的频率信息以及领域频率,计算该特征候选词的特征得分,具体包括:
针对该特征候选词的每种频率信息,对该特征候选词的该种频率信息的取值进行归一化,得到该特征候选词的该种频率信息的归一值;
根据该特征候选词的领域频率、博文语料集中所有种子博文的所属领域总数,计算出该特征候选词的降权因子;
根据频率信息中的IF值、DF值、用户频率各自对应的权重、该特征候选词的各种频率信息的归一值以及计算出的该特征候选词的降权因子,计算该特征候选词的特征得分;
其中,所述词汇的用户频率是指所述博文语料集中该领域的各种子博文所属的种子用户中谈及该词汇的种子用户的个数;
若该特征得分超过预设的特征阈值,则将该特征候选词及其特征得分,分别作为该领域的领域特征词及其权重对应存储至该特征词库中。
2.如权利要求1所述的方法,其特征在于,所述根据各词汇的频率信息从该种子博文的分词结果中选择出该领域的特征候选词,具体包括:
对于该种子博文的分词结果中每个词汇,若该词汇的IF值超过设定的词频阈值,则将该词汇作为该领域的特征候选词。
3.如权利要求2所述的方法,其特征在于,所述针对该特征候选词的每种频率信息,对该特征候选词的该种频率信息的取值进行归一化,得到该特征候选词的该种频率信息的归一值,具体包括:
针对该特征候选词的每种频率信息,根据如下公式1,计算出该特征候选词的该种频率信息的归一值Scif:
其中,if具体为该特征候选词的该种频率信息的取值;MINif为该领域的所有特征候选词中该种频率信息的最小取值;MAXif为该领域的所有特征候选词中该种频率信息的最优取值。
4.如权利要求3所述的方法,其特征在于,所述该领域的所有特征候选词中该种频率信息的最优取值是根据该领域的所有特征候选词的该种频率信息的取值来选取的:
针对该特征候选词的每种频率信息,将该领域的所有特征候选词中该种频率信息的取值按照从大到小的顺序进行排序,选取排序靠前的设定数量的特征候选词的该种频率信息的取值作为候选最优取值;并按照该种频率信息的取值大小顺序,将选取出的候选最优取值存储至候选集中;
根据所述候选集中各相邻的两个候选最优取值之间的分值差,从所述候选集中选择出该领域的所有特征候选词中该种频率信息的最优取值。
5.如权利要求2所述的方法,其特征在于,所述根据预设的每种频率信息各自对应的权重、该特征候选词的各种频率信息的归一值以及计算出的该特征候选词的降权因子,计算该特征候选词的特征得分,具体包括:
根据如下公式2,计算出该特征候选词的特征得分Scfeature:
Scfeature=(Wtf×Sctf+Wdf×Scdf+Wuf×Scuf)×Qcf (公式2)
式中,Wtf为IF的权重,Sctf为该特征候选词的IF归一值;Wdf为DF的权重,Scdf为该特征候选词的DF归一值;Wuf为用户频率的权重,Scuf为该特征候选词的用户频率的归一值;Qcf为该特征候选词的降权因子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微梦创科网络科技(中国)有限公司,未经微梦创科网络科技(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410213845.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:内存空间管理方法及系统
- 下一篇:一种高温高压筒子染色机的纱笼三角定位装置





