[发明专利]分析文本话题点的方法、装置、设备和计算机存储介质在审
| 申请号: | 201711390850.7 | 申请日: | 2017-12-21 |
| 公开(公告)号: | CN108268602A | 公开(公告)日: | 2018-07-10 |
| 发明(设计)人: | 郭振;吴文权;刘占一 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本数据 话题 计算机存储介质 文本 核心语义 语法分析 语法结构 分析 原文 | ||
1.一种分析文本话题点的方法,其特征在于,所述方法包括:
获取文本数据;
从所述文本数据中提取重要词;
对所述文本数据进行语法分析,根据所述文本数据中与所述重要词相关的语法结构内容,获取所述文本数据的话题点。
2.根据权利要求1所述的方法,其特征在于,从所述文本数据中提取重要词包括:
从所述文本数据中提取满足预设的词性要求的词语作为重要词;和/或,
确定所述文本数据中各词语的重要性得分,提取满足预设的得分要求的词语作为重要词。
3.根据权利要求2所述的方法,其特征在于,确定所述文本数据中各词语的重要性得分包括:
基于词语在大规模数据中的统计指标,确定所述文本数据中各词语的重要性得分;或者
将所述文本数据中的各词语输入预先训练的词语排序模型,依据词语排序模型输出的结果,确定所述文本数据中各词语的重要性得分。
4.根据权利要求3所述的方法,其特征在于,所述词语排序模型是采用以下方式预先训练得到的:
获取训练数据,所述训练数据包括标注有各词语重要性得分的文本数据;
将训练数据中文本数据的各词语作为输入,将文本数据中各词语的重要性得分作为输出,训练深度学习模型,得到词语排序模型。
5.根据权利要求1所述的方法,其特征在于,根据所述文本数据中与所述重要词相关的语法结构内容,获取所述文本数据的话题点包括:
获取所述文本数据的语法树;
根据所获取的语法树,确定与所述重要词相关的语法结构内容;
将确定出的语法结构内容进行组合,得到所述文本数据的话题点。
6.根据权利要求5所述的方法,其特征在于,所述将确定出的语法结构内容进行组合包括:
从确定出的语法结构内容中选择满足预设语法结构要求的内容进行组合。
7.一种分析文本话题点的装置,其特征在于,所述装置包括:
获取单元,用于获取文本数据;
提取单元,用于从所述文本数据中提取重要词;
处理单元,用于对所述文本数据进行语法分析,根据所述文本数据中与所述重要词相关的语法结构内容,获取所述文本数据的话题点。
8.根据权利要求7所述的装置,其特征在于,所述提取单元在用于从所述文本数据中提取重要词时,具体执行:
从所述文本数据中提取满足预设的词性要求的词语作为重要词;和/或,
确定所述文本数据中各词语的重要性得分,提取满足预设的得分要求的词语作为重要词。
9.根据权利要求8所述的装置,其特征在于,所述提取单元在用于确定所述文本数据中各词语的重要性得分时,具体执行:
基于词语在大规模数据中的统计指标,确定所述文本数据中各词语的重要性得分;或者
将所述文本数据中的各词语输入预先训练的词语排序模型,依据词语排序模型输出的结果,确定所述文本数据中各词语的重要性得分。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括训练单元,用于采用以下方式预先训练得到词语排序模型:
获取训练数据,所述训练数据包括标注有各词语重要性得分的文本数据;
将训练数据中文本数据的各词语作为输入,将文本数据中各词语的重要性得分作为输出,训练深度学习模型,得到词语排序模型。
11.根据权利要求7所述的装置,其特征在于,所述处理单元在用于根据所述文本数据中与所述重要词相关的语法结构内容,获取所述文本数据的话题点时,具体执行:
获取所述文本数据的语法树;
根据所获取的语法树,确定与所述重要词相关的语法结构内容;
将确定出的语法结构内容进行组合,得到所述文本数据的话题点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711390850.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:图片搜索方法、装置及计算机设备
- 下一篇:一种基于核心成员识别的社区发现方法





