[发明专利]基于社交网络的训练语料集的构建方法和装置有效
| 申请号: | 201410213819.6 | 申请日: | 2014-05-20 |
| 公开(公告)号: | CN104035968B | 公开(公告)日: | 2017-11-03 |
| 发明(设计)人: | 李金奎;谌贻荣 | 申请(专利权)人: | 微梦创科网络科技(中国)有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京市京大律师事务所11321 | 代理人: | 张璐,方晓明 |
| 地址: | 100080 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 社交 网络 训练 语料 构建 方法 装置 | ||
1.一种基于社交网络的训练语料集的构建方法,其特征在于,包括:
对于待构建的训练语料集所属的领域,获取所述社交网络中该领域的用户群体发布的文本内容;
对于获取的每篇文本内容,对该篇文本内容进行分词,将分词后的各词语中与该领域的特征词库中的特征词相同的词语,作为该篇文本内容的特征词;并根据该篇文本内容的特征词,计算该篇文本内容与该领域的相关度;
将与该领域的相关度大于预设的相关度阈值的文本内容,作为该领域的文本语料加入到该领域的训练语料集中;
其中,所述该领域的特征词库是通过以下步骤预先构建的:
从文本内容集中获取该领域的各篇种子文本内容;
对于获取的该领域的每篇种子文本内容,对该篇种子文本内容分词,得到该篇种子文本内容分词后的各词语;分别统计出该篇种子文本内容分词后的各词语的词频IF值;并根据统计出的各词语的IF值,从该篇种子文本内容分词后的各词语中选择出该领域的特征候选词;
对于选择出的该领域的每个特征候选词,统计所述文本内容集中的各领域的种子文本内容中包含该特征候选词的领域的个数,将其作为该特征候选词的领域频率;
针对该领域的每个特征候选词,根据该特征候选词的IF值和领域频率,计算该特征候选词的特征得分;若该特征得分超过预设的特征得分阈值,则将该特征候选词及其特征得分,分别作为该领域的特征词及其权重对应存储至该领域的特征词库中;
其中,所述文本内容集中该领域的各篇种子文本内容是预先从所述社交网络中该领域的用户群体中选取若干个用户后,将选取出的各用户发布的文本内容作为该领域的种子文本内容存储在所述文本内容集中的。
2.如权利要求1所述的方法,其特征在于,所述根据该篇文本内容的特征词,计算该篇文本内容与该领域的相关度,具体包括:
对于该篇文本内容的每个特征词,统计出该特征词在该篇文本内容中出现的频次,并从该领域的特征词库中查找出该特征词的权重作为该特征词的领域权重;
根据该篇文本内容的每个特征词在该篇文本内容中出现的频次以及领域权重,计算出该篇文本内容与该领域的相关度。
3.如权利要求2所述的方法,其特征在于,所述根据该篇文本内容的每个特征词在该篇文本内容中出现的频次以及领域权重,计算出该篇文本内容与该领域的相关度,具体为:
根据如下公式1,计算出该篇文本内容与该领域的相关度St:
其中,n为该篇文本内容的特征词的总数,i为取值1~n的自然数,Wi为该篇文本内容的第i个特征词的领域权重;fi为第i个特征词在该篇文本内容中出现的频次。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微梦创科网络科技(中国)有限公司,未经微梦创科网络科技(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410213819.6/1.html,转载请声明来源钻瓜专利网。





