[发明专利]一种文本分析方法及装置有效
申请号: | 201710880789.8 | 申请日: | 2017-09-26 |
公开(公告)号: | CN109558580B | 公开(公告)日: | 2023-01-17 |
发明(设计)人: | 王天祎 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/289;G06F40/211 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分析 方法 装置 | ||
1.一种文本分析方法,其特征在于,包括:
获取待分析的用户评价文本;
对所述用户评价文本进行切词处理,得到切词序列;
将所述切词序列输入经过训练的标注模型,对所述切词序列中的各个词进行标注处理;
对标注处理后的所述切词序列中的词进行拼接处理,得到用户观点意见;
其中,所述对所述切词序列中的各个词进行标注处理,包括:
将所述切词序列中的第一个属性词标注为第一类型词,将除第一个属性词之外的属性词标注为第二类型词;
将所述切词序列中的第一个评价语标注为第三类型词,将除第一个评价语之外的评价语标注为第四类型词;
将除属性词和评价语之外的所有词,标注为第五类型词;
其中,所述对标注处理后的所述切词序列中的词进行拼接处理,得到用户观点意见,包括:
将所述切词序列中的相邻的第一类型词和第二类型词拼接成一个属性词;
将所述切词序列中的相邻的第三类型词和第四类型词拼接成一个评价语;
将相邻的属性词和评价语,组成一个属性,评价语对,作为用户观点意见。
2.根据权利要求1所述的方法,其特征在于,所述将所述切词序列输入经过训练的标注模型,包括:
将所述切词序列输入经过训练的条件随机场模型。
3.根据权利要求1所述的方法,其特征在于,对所述用户评价 文本进行切词处理时,还得到依存句法序列;
在得到所述依存句法序列后,该方法还包括:
根据所述依存句法序列,对所述切词序列中的词分别进行特征化处理,得到所述切词序列的特征集合;
将所述切词序列的特征集合输入经过训练的标注模型,对所述切词序列中的各个词进行标注处理。
4.一种文本分析装置,其特征在于,包括:
文本获取单元,用于获取待分析的用户评价文本;
切词处理单元,用于对所述用户评价文本进行切词处理,得到切词序列;
标注处理单元,用于将所述切词序列输入经过训练的标注模型,对所述切词序列中的各个词进行标注处理;
拼接处理单元,用于对标注处理后的所述切词序列中的词进行拼接处理,得到用户观点意见;
其中,所述标注模型对所述切词序列中的各个词进行标注处理时,具体用于:
将所述切词序列中的第一个属性词标注为第一类型词,将除第一个属性词之外的属性词标注为第二类型词;将所述切词序列中的第一个评价语标注为第三类型词,将除第一个评价语之外的评价语标注为第四类型词;将除属性词和评价语之外的所有词,标注为第五类型词;
其中,所述对标注处理后的所述切词序列中的词进行拼接处理,得到用户观点意见,具体用于:
将所述切词序列中的相邻的第一类型词和第二类型词拼接成一个属性词;将所述切词序列中的相邻的第三类型词和第四类型词拼接成一个评价语;将相邻的属性词和评价语,组成一个属性,评价语对,作为用户观点意见。
5.根据权利要求4所述的装置,其特征在于,所述切词处理单元对所述用户评价 文本进行切词处理时,还得到依存句法序列;
该装置还包括:
特征化处理单元,用于根据所述依存句法序列,对所述切词序列中的词分别进行特征化处理,得到所述切词序列的特征集合;
相应的,所述标注处理单元还用于将所述切词序列的特征集合输入经过训练的标注模型,对所述切词序列中的各个词进行标注处理。
6.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1-3中任一项所述的文本分析方法。
7.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行如权利要求1-3中任一项所述的文本分析方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710880789.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种报表生成方法和装置
- 下一篇:一种内容监测方法及装置