[发明专利]社交网络中的特征词库构建方法和系统有效
| 申请号: | 201410213845.9 | 申请日: | 2014-05-20 |
| 公开(公告)号: | CN104035969B | 公开(公告)日: | 2017-11-03 |
| 发明(设计)人: | 李金奎;谌贻荣 | 申请(专利权)人: | 微梦创科网络科技(中国)有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京市京大律师事务所11321 | 代理人: | 张璐,方晓明 |
| 地址: | 100080 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种社交网络中的特征词库构建方法和系统,该方法包括对于博文语料集中待构建的特征词库所属领域的每个种子博文,将该种子博文分词后统计该种子博文的分词结果中各词汇的频率信息,并根据频率信息从该种子博文的分词结果中选择该领域的特征候选词;对于该领域的每个特征候选词,统计博文语料集中的各领域的种子博文中包含该特征候选词的领域个数并作为该特征候选词的领域频率;针对每个特征候选词,根据其频率信息、领域频率,计算该特征候选词的特征得分;若该特征得分超过预设的特征阈值,则将该特征候选词及其特征得分分别作为该领域的领域特征词及其权重对应存储至该特征词库中。应用本发明,可提高构建的特征词库的准确度。 | ||
| 搜索关键词: | 社交 网络 中的 特征 词库 构建 方法 系统 | ||
【主权项】:
一种社交网络中的特征词库构建方法,其特征在于,包括:从博文语料集中获取待构建的特征词库所属领域的各种子博文;并对于获取的每个种子博文,将该种子博文分词后进行如下处理:针对该种子博文的分词结果中的每个词汇,统计出该词汇的包括词频IF值的频率信息;根据各词汇的频率信息从该种子博文的分词结果中选择出该领域的特征候选词;词汇的频率信息还包括所述词汇的文档频率DF值和用户频率;对于选择出的该领域的每个特征候选词,统计所述博文语料集中的各领域的种子博文中包含该特征候选词的领域个数,并将统计出的领域个数作为该特征候选词的领域频率;针对该领域的每个特征候选词,根据该特征候选词的频率信息以及领域频率,计算该特征候选词的特征得分,具体包括:针对该特征候选词的每种频率信息,对该特征候选词的该种频率信息的取值进行归一化,得到该特征候选词的该种频率信息的归一值;根据该特征候选词的领域频率、博文语料集中所有种子博文的所属领域总数,计算出该特征候选词的降权因子;根据频率信息中的IF值、DF值、用户频率各自对应的权重、该特征候选词的各种频率信息的归一值以及计算出的该特征候选词的降权因子,计算该特征候选词的特征得分;其中,所述词汇的用户频率是指所述博文语料集中该领域的各种子博文所属的种子用户中谈及该词汇的种子用户的个数;若该特征得分超过预设的特征阈值,则将该特征候选词及其特征得分,分别作为该领域的领域特征词及其权重对应存储至该特征词库中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微梦创科网络科技(中国)有限公司,未经微梦创科网络科技(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410213845.9/,转载请声明来源钻瓜专利网。
- 上一篇:内存空间管理方法及系统
- 下一篇:一种高温高压筒子染色机的纱笼三角定位装置





