[发明专利]用于确定文本核心语句的方法和装置在审
申请号: | 201710978320.8 | 申请日: | 2017-10-18 |
公开(公告)号: | CN107797990A | 公开(公告)日: | 2018-03-13 |
发明(设计)人: | 张翔;刘辉 | 申请(专利权)人: | 渡鸦科技(北京)有限责任公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司11204 | 代理人: | 王达佐,马晓亚 |
地址: | 100020 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 确定 文本 核心 语句 方法 装置 | ||
技术领域
本申请涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及用于确定文本核心语句的方法和装置。
背景技术
随着科技的发展进步,越来越多的智能终端、移动终端等成为人们生活中不可或缺的一部分,如智能手机、智能家居和电脑等。用户在终端上安装不同的应用,可以满足用户播放音频、拍照、搜索等需求。
通常,用户可以通过在终端安装的应用中检索音频、文本等的标题来搜索对应的音频、文本等。但是,很多时候用户在搜索音频、文本等时,想不起来音频、文本等的标题,而仅记得其中某些耳熟能详的语句,因此,用户往往希望可以利用音频、文本等的耳熟能详的语句来搜索到对应的音频、文本等。这种耳熟能详的语句通常可以认为是音频、文本的核心语句。故,有那必要提供一种可以准确地从音频、文本等中确定核心语句的方法,来提高音频、文本等的搜索精确度。
发明内容
本申请实施例的目的在于提出一种改进的用于确定文本核心语句的方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请实施例提供了一种用于确定文本核心语句的方法,该方法包括:从预设的文本集中获取目标文本,其中,文本集包括多个文本,文本包括多个利用预设符号划分的语句;计算目标文本中的第一语句的基本特征,其中,基本特征包括词频-逆文档频率、信息熵、重复率、与目标文本的标题的相似度,第一语句为目标文本中的任一语句;基于第一语句的基本特征,确定该第一语句是否为目标文本的核心语句。
在一些实施例中,计算目标文本中的第一语句的基本特征,包括:对文本集中的各文本的语句进行分词,获取分词后的各词语,其中,第一语句分词后的词语为第一词语;计算每个第一词语的词频-逆文档频率,并根据各第一语句的词频-逆文档频率确定第一语句的词频-逆文档频率;计算各第一词语在目标文本的词频,并根据各第一词语在目标文本的词频确定各第一词语的信息熵;计算第一语句在目标文本中的重复率;计算第一语句与目标文本的标题的相似度。
在一些实施例中上述方法还包括:对文本集中的各文本进行数据清洗,得到各文本的标题和正文。
在一些实施例中,计算每个第一词语的词频-逆文档频率,并根据各第一语句的词频-逆文档频率确定第一语句的词频-逆文档频率,包括:获取各第一词语在目标文本中的词频;获取各第一词语在文本集中的逆文档频率;利用各第一词语的词频和逆文档频率,计算每个第一词语的词频-逆文档频率;对各第一词语的词频-逆文档频率求和,确定第一语句的词频-逆文档频率。
在一些实施例中,计算各第一词语在目标文本的词频,并根据各第一词语在目标文本的词频确定各第一词语的信息熵,包括:获取每个第一词语在目标文本中的词频,计算各第一词语的信息熵;对各第一词语的信息熵求和,确定第一语句的信息熵。
在一些实施例中,计算第一语句与目标文本的标题的相似度,包括:计算第一语句与目标文本的标题的编辑距离;将第一语句的字符串长度与标题的字符串长度做对比,从中确定较长的字符串长度为第一字符串长度;根据编辑距离和第一字符串长度的比值,确定第一语句与目标歌词文本的标题的相似度。
在一些实施例中,基于第一语句的基本特征,确定第一语句是否为目标文本的核心语句,包括:对第一语句的词频-逆文档频率、信息熵、重复率、与目标文本的标题的相似度加权求和,确定第一语句的评分;基于第一语句的评分大于第一预设阈值,确定第一语句为目标文本的核心语句。
在一些实施例中,预设符号为换行符。
第二方面,本申请提供了用于确定文本核心语句的装置,装置包括:获取单元,配置用于从预设的文本集中获取目标文本,其中,文本集包括多个文本,文本包括多个利用预设符号划分的语句;计算单元,配置用于计算目标文本中的第一语句的基本特征,其中,基本特征包括词频-逆文档频率、信息熵、重复率、与目标文本的标题的相似度,第一语句为目标文本中的任一语句;确定单元,配置用于基于第一语句的基本特征,确定该第一语句是否为目标文本的核心语句。
在一些实施例中,计算单元包括:分词模块,配置用于对文本集中的各文本的语句进行分词,获取分词后的各词语,其中,第一语句分词后的词语为第一词语;词频-逆文档频率计算模块,配置用于计算各第一词语在目标文本的词频,并根据各第一词语在目标文本的词频确定各第一词语的信息熵;信息熵计算模块,配置用于计算各第一词语在目标文本的词频,并根据各第一词语在目标文本的词频确定各第一词语的信息熵;重复率计算模块,配置用于计算第一语句在目标文本中的重复率;相似度计算模块,配置用于计算第一语句与目标文本的标题的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渡鸦科技(北京)有限责任公司,未经渡鸦科技(北京)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710978320.8/2.html,转载请声明来源钻瓜专利网。