[发明专利]文本情感去噪方法及系统在审
申请号: | 201810932216.X | 申请日: | 2018-08-16 |
公开(公告)号: | CN109271623A | 公开(公告)日: | 2019-01-25 |
发明(设计)人: | 徐泓洋;郑权;张峰;聂颖 | 申请(专利权)人: | 龙马智芯(珠海横琴)科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京博讯知识产权代理事务所(特殊普通合伙) 11593 | 代理人: | 柳兴坤;刘馨月 |
地址: | 519031 广东省珠*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 去噪 词表 文本情感 文本 删除 文本情感极性 准确度 着力点 话题 | ||
1.一种文本情感去噪方法,其特征在于,包括:
步骤S1:获取待处理文本的当前领域;
步骤S2:获取所述当前领域的属性词表,所述属性词表包括若干个与所述当前领域相关的属性词;
步骤S3:利用所述属性词表对所述待处理文本进行去噪处理,以删除所述待处理文本中与所述当前领域无关的内容。
2.根据权利要求1所述的文本情感去噪方法,其特征在于,所述步骤S2包括:
利用文档主题生成模型获取所述当前领域的属性词表。
3.根据权利要求2所述的文本情感去噪方法,其特征在于,所述利用文档主题生成模型获取所述当前领域的属性词表包括:
步骤S21:获取训练样本集,所述训练样本集包括若干个与所述当前领域相关的语料文本;
步骤S22:对所述训练样本集的语料文本进行处理,得到训练语料;
步骤S23:采用所述训练语料训练文档主题生成模型,得到若干个主题词;
步骤S24:根据所述若干个主题词构建所述属性词表。
4.根据权利要求3所述的文本情感去噪方法,其特征在于,所述步骤S22包括:
步骤S22a:对所述训练样本集的语料文本进行分词处理,得到文本序列;
步骤S22b:保留所述文本序列中预设词性的词,删除所述预设词性之外的词性的词,得到所述训练语料。
5.根据权利要求1所述的文本情感去噪方法,其特征在于,所述步骤S3包括:
步骤S31:对所述待处理文本进行切分处理,得到若干个文本片;
步骤S32:对每一个所述文本片进行预处理,得到每一个文本片的词序列;
步骤S33:根据所述属性词表以及词序列的长度从所述若干个文本片的词序列中选择保留的词序列;
步骤S34:将保留的词序列进行拼接。
6.根据权利要求5所述的文本情感去噪方法,其特征在于,所述步骤S31包括:
以预设的标点符号为切分依据,对所述待处理文本进行切分,从而得到所述若干个文本片。
7.根据权利要求5所述的文本情感去噪方法,其特征在于,所述步骤S32包括:
对每一个所述文本片依次进行分词处理及去停用词处理,从而得到每一个文本片的词序列。
8.根据权利要求5所述的文本情感去噪方法,其特征在于,所述步骤S33包括:对于每一个文本片的词序列,若其满足第一预设条件、第二预设条件中的至少一个条件,则对其进行保留,否则对其进行删除;
其中,所述第一预设条件为词序列的长度小于预设值,所述第二预设条件为词序列包含所述属性词表中至少一个属性词。
9.一种文本情感去噪系统,其特征在于,包括:
第一获取模块,用于获取待处理文本的当前领域;
第二获取模块,用于获取所述当前领域的属性词表,所述属性词表包括若干个与所述当前领域相关的属性词;
处理模块,用于利用所述属性词表对所述待处理文本进行去噪处理,以删除所述待处理文本中与所述当前领域无关的内容。
10.根据权利要求9所述的文本情感去噪系统,其特征在于,所述第二获取模块被配置为利用文档主题生成模型获取所述当前领域的属性词表。
11.根据权利要求10所述的文本情感去噪系统,其特征在于,所述所述第二获取模块包括:
获取单元,用于获取训练样本集,所述训练样本集包括若干个与所述当前领域相关的语料文本;
第一处理单元,用于对所述训练样本集的语料文本进行处理,得到训练语料;
训练单元,用于采用所述训练语料训练文档主题生成模型,得到若干个主题词;
构建单元,用于根据所述若干个主题词构建所述属性词表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于龙马智芯(珠海横琴)科技有限公司,未经龙马智芯(珠海横琴)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810932216.X/1.html,转载请声明来源钻瓜专利网。