[发明专利]一种信息处理方法、装置、电子设备及计算机存储介质有效
| 申请号: | 201810745000.2 | 申请日: | 2018-07-09 | 
| 公开(公告)号: | CN109101485B | 公开(公告)日: | 2022-07-29 | 
| 发明(设计)人: | 杜若;覃勋辉;向海;侯聪;刘科 | 申请(专利权)人: | 重庆邂智科技有限公司 | 
| 主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/284;G06F40/247 | 
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 | 
| 地址: | 400000 重庆市渝北区金*** | 国省代码: | 重庆;50 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | 本发明实施例公开了一种信息处理方法、装置、电子设备及计算机存储介质,词频‑逆文件频率(TF‑IDF)可用于评估字词对于某文件的重要程度,在当前的做法中,仅将各字词作为独立的元素,使得采用当前做法得到的TF‑IDF值进行文本分类和信息检索的准确度较低。本发明实施例通过获取文本信息中的每个文本词在该文本信息中的同义词,并根据该文本词和该文本词的同义词得到该文本词的第一同义词集合,进而基于该第一同义词集合,得到该文本信息的第二同义词集合,最后计算得到该第二同义词集合的TF‑IDF值。由于考虑了文本信息中文本词之间的同义词关系,进一步的,基于该TF‑IDF值,可以提高文本分类或信息检索的准确度。 | ||
| 搜索关键词: | 一种 信息处理 方法 装置 电子设备 计算机 存储 介质 | ||
【主权项】:
                1.一种信息处理方法,其特征在于,包括:接收信息处理请求,所述信息处理请求包括多个文本信息,各个所述文本信息包括至少一个文本词;根据所述多个文本信息包括的文本词,得到关于所述文本词的第一同义词集合,所述第一同义词集合包括所述文本词以及所述文本词的至少一个同义词;针对各个所述文本信息,确定所述文本信息的第一系数,所述第一系数与包含所述文本信息中的文本词的第二同义词集合相对应,所述第一同义词集合包括所述第二同义词集合,所述第一系数用于建立所述第二同义词集合和所述文本信息之间的线性表示关系;根据所述文本信息的第一系数,得到所述第二同义词集合的词频‑逆文件频率。
            
                    下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
                
                
            该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邂智科技有限公司,未经重庆邂智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810745000.2/,转载请声明来源钻瓜专利网。





