[发明专利]一种文档标题处理方法、装置及电子设备在审
| 申请号: | 202110851076.5 | 申请日: | 2021-07-27 |
| 公开(公告)号: | CN113569027A | 公开(公告)日: | 2021-10-29 |
| 发明(设计)人: | 黄雪原;张铮;张玉东;宋丹丹 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/35;G06F16/36;G06F40/247;G06F40/284 |
| 代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静;黄灿 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文档 标题 处理 方法 装置 电子设备 | ||
1.一种文档标题处理方法,所述方法包括:
在目标字典树中查询与待处理标题匹配的第一高频分词,其中,所述目标字典树包括N个文档类别的文档标题的N个高频分词表,每个高频分词表对应一个文档类别,N为正整数,任一高频分词表包括对应文档类别的文档标题中词频大于预设词频的分词;
基于所述第一高频分词生成目标标题。
2.根据权利要求1所述的方法,其中,所述基于所述第一高频分词生成目标标题之后,还包括:
在所述目标标题的字数大于预设字数,且所述目标标题与所述待处理标题之间至少部分不同的情况下,将所述目标标题作为所述待处理标题对应的文档的标题。
3.根据权利要求1所述的方法,其中,所述目标字典树还包括所述N个高频分词表中分词所在文档标题的文档类别;
所述基于所述第一高频分词生成目标标题,包括:
将所述第一高频分词中的条件分词进行过滤,得到第二高频分词,所述条件分词所在文档标题的文档类别与所述待处理标题对应文档的文档类别不匹配;
在所述第二高频分词的数量为至少两个的情况下,对所述第二高频分词进行合并,得到所述目标标题;或者,
在所述第二高频分词的数量为一个的情况下,将所述第二高频分词确定为所述目标标题。
4.根据权利要求1所述的方法,其中,所述目标字典树通过如下方式构建:
获取多个文档标题以及所述多个文档标题的文档的类别,所述多个文档标题包括所述N个文档类别的文档标题;
对所述多个文档标题分别进行切词,得到所述多个文档标题的分词;
基于所述多个文档标题的文档的类别,对所述多个文档标题进行聚类,得到所述N个文档类别分别对应的文档标题;
分别对所述N个文档类别中每个文档类别的文档标题的分词词频进行统计,确定所述N个文档类别中每个文档类别的高频分词表;
基于所述N个高频分词表构建所述目标字典树。
5.根据权利要求1或4所述的方法,其中,所述目标字典树中的目标节点与目标文档类别对应,所述目标节点为目标高频分词表的目标分词的最后一个字符的节点,所述目标高频分词表为所述N个高频分词表中任一字表,所述目标分词为所述目标高频分词表中任一分词,所述目标文档类别为所述目标分词所在文档标题的文档的类别。
6.一种文档标题处理装置,所述装置包括:
查询模块,用于在目标字典树中查询与待处理标题匹配的第一高频分词,其中,所述目标字典树包括N个文档类别的文档标题的N个高频分词表,每个高频分词表对应一个文档类别,N为正整数,任一高频分词表包括对应文档类别的文档标题中词频大于预设词频的分词;
标题生成模块,用于基于所述第一高频分词生成目标标题。
7.根据权利要求6所述的装置,其中,还包括:
第一确定模块,用于在所述目标标题的字数大于预设字数,且所述目标标题与所述待处理标题之间至少部分不同的情况下,将所述目标标题作为所述待处理标题对应的文档的标题。
8.根据权利要求6所述的装置,其中,所述目标字典树还包括所述N个高频分词表中分词所在文档标题的文档类别;
所述标题生成模块,包括:
第一过滤模块,用于将所述第一高频分词中的条件分词进行过滤,得到第二高频分词,所述条件分词所在文档标题的文档类别与所述待处理标题对应文档的文档类别不匹配;
第二确定模块,用于在所述第二高频分词的数量为至少两个的情况下,对所述第二高频分词进行合并,得到所述目标标题;或者,在所述第二高频分词的数量为一个的情况下,将所述第二高频分词确定为所述目标标题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110851076.5/1.html,转载请声明来源钻瓜专利网。





