[发明专利]价值观相关话题的文本判别方法在审
申请号: | 201711298798.2 | 申请日: | 2017-12-08 |
公开(公告)号: | CN108009256A | 公开(公告)日: | 2018-05-08 |
发明(设计)人: | 郭文忠;戴远飞;陈星 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊;薛金才 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 价值观 相关 话题 文本 判别 方法 | ||
本发明提供一种价值观相关话题的文本判别方法,其包括以下步骤:步骤S1:基于选定的种子词,从社交网络上搜索出具有代表性的帖子,基于领域知识提出主题词,组成主题词库;步骤S2:结合专家知识和具有代表性的帖子验证,建立相关话题的领域知识模型;步骤S3:结合领域知识模型,建立相关话题的判别模型;基于领域知识设定阈值为R,若是某个帖子的相关性R大于阈值,则该贴子和话题相关,反之亦然。与现有技术相比,本发明不用通过预先训练模型,能够快速准备的判断一个帖子是否属于某一话题。
技术领域
本发明属于语言处理领域,具体涉及一种价值观相关话题的文本判别方法。
背景技术
价值观是指一个人对周围的客观事物(包括人、事、物)的意义、重要性的总评价和总看法。一方面表现为价值取向、价值追求,凝结为一定的价值目标;另一方面表现为价值尺度和准则,成为人们判断价值事物有无价值及价值大小的评价标准。在今天全球化的环境和社会转型的大背景下,作为社会的中坚力量,大众的价值观是值得高度关注的。
发明内容
本发明的目的是提供一种价值观相关话题的文本判别方法。
本发明采用以下技术方案:一种价值观相关话题的文本判别方法,其包括以下步骤步骤S1:基于选定的种子词,从社交网络上搜索出具有代表性的帖子,基于领域知识提出主题词,组成主题词库;步骤S2:结合专家知识和具有代表性的帖子验证,建立相关话题的领域知识模型;步骤S3:结合领域知识模型,建立相关话题的判别模型;基于领域知识设定阈值为R,若是某个帖子的相关性R大于阈值,则该贴子和话题相关,反之亦然。
在本发明一实施例中,步骤S2包括以下具体步骤:在主题词库的基础上,进一步地分析主题词关键程度;所述关键程度,指的是一个主题词反应某一个相关话题的程度。
进一步的,关键程度通过主题词的权重来表示;将主题词分为四个等级,分别赋予相应的权值;其中极相关主题词:权值0.7;较为相关主题词:权值0.55;弱相关主题词:权值0.35;公共词汇:权值0.15。
在本发明一实施例中,步骤S3中包括以下具体步骤:通过TF-IDF算法评估帖子中出现的词语对于该贴子的重要程度; TF-IDF算法返回的结果是文档中的关键词按重要性从高到低的排序结果;返回结果的前五个此为特别关键词;对于每个帖子利用TF-IDF算法计算出帖子的关键词排序,若是关键词出现在主题词库中,将其权重带入到相关度计算公式中,计算公式为:
其中,sw_n表示出现在主题词库中特别关键词的权重,w_n表示出现在主题词库中关键词的权重;如果是特别关键词,则在计算特别关键词的权重时需要在原来权重的基础之上加上0.2。
较佳的,R为0.69。
与现有技术相比,本发明基于领域知识提出主题词,组成主题词库。之后结合专家知识和代表性帖子验证,建立相关话题的领域知识模型,建立相关话题的判别模型。这种方法不用通过预先训练模型,能够快速准备的判断一个帖子是否属于某一话题。
具体实施方式
下面结合具体实施例对本发明做进一步解释说明。
本发明采用以下技术方案:一种价值观相关话题的文本判别方法,其包括以下步骤步骤S1:基于选定的种子词,从社交网络上搜索出具有代表性的帖子,基于领域知识提出主题词,组成主题词库;步骤S2:结合专家知识和具有代表性的帖子验证,建立相关话题的领域知识模型;步骤S3:结合领域知识模型,建立相关话题的判别模型;基于领域知识设定阈值为R,若是某个帖子的相关性R大于阈值,则该贴子和话题相关,反之亦然。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711298798.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种酱辣椒的腌制方法
- 下一篇:一种防霉防潮装饰板材