[发明专利]社交网络中的特征词库构建方法和系统有效
| 申请号: | 201410213845.9 | 申请日: | 2014-05-20 |
| 公开(公告)号: | CN104035969B | 公开(公告)日: | 2017-11-03 |
| 发明(设计)人: | 李金奎;谌贻荣 | 申请(专利权)人: | 微梦创科网络科技(中国)有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京市京大律师事务所11321 | 代理人: | 张璐,方晓明 |
| 地址: | 100080 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 社交 网络 中的 特征 词库 构建 方法 系统 | ||
技术领域
本发明涉及互联网技术领域,尤其涉及一种社交网络中的特征词库构建方法和系统。
背景技术
随着互联网技术的发展,通过社交网络软件来进行信息的分享、传播以及获取,已成为广大网民的主要社交方式之一。例如,通过微博或Twitter(推特)等社交网络软件,用户可以通过各种客户端组建个人社区,不断通过文字、图片等形式更新信息,实现自己的最新动态和想法的即时分享。
实际应用中,通过对微博等社交网络软件的观察和分析发现,在整个社交网络之上分布着大大小小的不同领域的社交圈,而对于不同的领域,能够将领域的主要内容明显地表示出来的领域特征词是描述该领域的最恰当的词汇。如何在整个社交网络中提取出不同领域的领域特征词,对于后续的领域研究和垂直频道研究都起着至关重要的作用。例如,可以使得用户能够根据领域特征词有效地获得相关领域内的高价值的信息流;也可以使得运营人员能够根据领域特征词挖掘出各领域的高专业性的专家,为社交网络软件提供领域专家扩展服务、以及为垂直领域项目提供数据支撑。
现有存在一种人工构建特征词库的方法,其主要是对于每个领域,人工收集整理一些与该领域相关的语料(比如属于该领域的论文、杂志、书籍等),根据通用分词词库对收集的语料进行分词后,对分词结果进行人工审核,将符合人工审核条件的词汇作为该领域的领域特征词存储至特征词库中。其中,通用分词词库为现有常用分词器所采用的分词词库。实际应用中,人工收集的语料只能覆盖少数领域,且收集的语料与领域的相关度存在较大的浮动,导致通过上述人工构建特征词库的方法所提取出的特征词库的领域覆盖率和准确度都不高;而且,通过人工收集和人工审核进行特征词库的构建,存在工作量大、且耗费时间长的不足。
为了减少构建特征词库的工作量及耗费时间,现有还提出了一种基于网页的特征词库构建方法,其主要是针对每个领域,利用自动获取网页内容的网络爬虫程序去网络上爬取一个或几个与该领域相关的网页作为语料存储至该领域的语料库中,继而,通过本领域技术人员常用的N-gram模型或分词器对爬取的网页进行分词后,通过TF-IDF(term frequency–inverse document frequency,词频-逆文档频率)统计方法,评估分词结果中各词汇对于该领域的语料库的重要程度,并根据评估的重要程度对分词结果中各词汇进行权重排序,将权重排序靠前的若干个词汇作为该领域的领域特征词存储在特征词库中。然而,实际应用中,将网络爬虫爬取的网页作为语料,其与领域的相关度也存在较大的浮动,且领域分类完全依赖于网络分类体系,只能覆盖少数领域,从而导致通过上述基于网页的特征词库构建方法所提取出的特征词库的领域覆盖率和准确度也都不高。
而且,本发明的发明人发现,现有的各领域的特征词库的构建方法存在构建的不同领域的特征词库之间的区分度不大的不足,从而导致各领域的特征词库的准确度较低,其原因主要在于,各领域的特征词库的构建过程中缺少与其他领域的特征词库构建过程的互动,容易出现将公共词汇作为领域特征词的情况,继而降低了不同领域的特征词库之间的区分度,也就降低了该特征词库的准确度。因此,有必要提供一种提高准确度的特征词库构建方法。
发明内容
本发明实施例提供了一种社交网络中的特征词库构建方法和系统,通过提高领域特征词的领域区分度来提高特征词库的准确度。
根据本发明的一个方面,提供了一种社交网络中的特征词库构建方法,包括:
从博文语料集中获取待构建的特征词库所属领域的各种子博文;并对于获取的每个种子博文,将该种子博文分词后进行如下处理:
针对该种子博文的分词结果中的每个词汇,统计出该词汇的包括词频IF值的频率信息;根据各词汇的频率信息从该种子博文的分词结果中选择出该领域的特征候选词;
对于选择出的该领域的每个特征候选词,统计所述博文语料集中的各领域的种子博文中包含该特征候选词的领域个数,并将统计出的领域个数作为该特征候选词的领域频率;
针对该领域的每个特征候选词,根据该特征候选词的频率信息以及领域频率,计算该特征候选词的特征得分;
若该特征得分超过预设的特征阈值,则将该特征候选词及其特征得分,分别作为该领域的领域特征词及其权重对应存储至该特征词库中。
较佳地,所述根据各词汇的频率信息从该种子博文的分词结果中选择出该领域的特征候选词,具体包括:
对于该种子博文的分词结果中每个词汇,若该词汇的IF值超过设定的词频阈值,则将该词汇作为该领域的特征候选词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微梦创科网络科技(中国)有限公司,未经微梦创科网络科技(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410213845.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:内存空间管理方法及系统
- 下一篇:一种高温高压筒子染色机的纱笼三角定位装置





