[发明专利]一种提取有意义串的方法及装置有效

申请号：	201710627611.2	申请日：	2017-07-28
公开（公告）号：	CN107291952B	公开（公告）日：	2020-05-19
发明（设计）人：	徐波	申请（专利权）人：	广州多益网络股份有限公司;多益网络有限公司;广东利为网络科技有限公司
主分类号：	G06F16/9535	分类号：	G06F16/9535;G06F16/958;G06F16/33;G06F16/35;G06F40/279;G06K9/62
代理公司：	广州骏思知识产权代理有限公司 44425	代理人：	吴静芝
地址：	510530 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种提取有意义方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种提取有意义串的方法，其特征在于：包括以下步骤：

获取原始语料并进行处理；

提取重复串；

对重复串的前后缀进行匹配；

计算紧密度，若紧密度大于阈值，则将前缀、后缀和重复串进行连接，构成一个有意义串，否则，进行过滤；所述紧密度为前缀、后缀的词频除以对应重复串的词频；

通过textrank技术，计算每一篇文章的关键句，并抽取所有文章的标题；

把关键句和标题存入数据库中，用抽取到的有意义串在所有关键句和标题中进行检索匹配；

根据匹配数进行排序，获取匹配度最高的有意义串，并将该有意义串代表的话题进行展现。

2.根据权利要求1所述提取有意义串的方法，其特征在于：所述步骤：获取原始语料并进行处理中，具体包括：

从网络抓取需要进行分析的文本；

对非结构化的文本进行预处理和词向量化；

根据所述向量对网页进行聚类；

将同一话题的原始语料集中到同一个文档中并进行分词。

3.根据权利要求1所述提取有意义串的方法，其特征在于：所述步骤：提取重复串中，具体包括：

依次导入同一话题且已预先分词的语料；

统计非停用词的词频，并对语料中围绕在所述非停用词前后的词语，并分别赋予一个ID；

对非停用词的词频进行判断，若词频小于阈值的，则过滤，否则认定为重复串。

4.根据权利要求3所述提取有意义串的方法，其特征在于：所述步骤：对重复串的前后缀进行匹配中，具体包括：

对重复串进行遍历；

根据记录好的前缀ID和后缀ID，依次统计重复串前缀和后缀同一词语出现的频率。

5.一种提取有意义串的装置，其特征在于：包括

语料获取处理模块，用于获取原始语料并进行处理；

提取模块，用于提取重复串；

前后缀匹配模块，用于对重复串的前后缀进行匹配；

紧度度计算判断模块，用于计算紧密度，若紧密度大于阈值，则将前缀、后缀和重复串进行连接，构成一个有意义串，否则，进行过滤；所述紧密度为前缀、后缀的词频除以对应重复串的词频；

抽取模块，用于通过textrank技术，计算每一篇文章的关键句，并抽取所有文章的标题；

关键句和标题匹配模块，用于把关键句和标题存入数据库中，用抽取到的有意义串在所有关键句和标题中进行检索匹配；

排序模块，用于根据匹配数进行排序，获取匹配度最高的有意义串，并将该有意义串代表的话题进行展现。

6.根据权利要求5所述提取有意义串的装置，其特征在于：所述语料获取处理模块，包括：

抓取模块，用于从网络抓取需要进行分析的文本；

预处理模块，用于对非结构化的文本进行预处理和词向量化；

聚类模块，用于根据所述向量对网页进行聚类；

分词模块，用于将同一话题的原始语料集中到同一个文档中并进行分词。

7.根据权利要求5所述提取有意义串的装置，其特征在于：所述提取模块中，具体包括：

导入模块，用于依次导入同一话题且已预先分词的语料；

非停用词统计模块，用于统计非停用词的词频，并对语料中围绕在所述非停用词前后的词语，并分别赋予一个ID；

词频判断模块，用于对非停用词的词频进行判断，若词频小于阈值的，则过滤，否则认定为重复串。

8.根据权利要求7所述提取有意义串的装置，其特征在于：所述前后缀匹配模块，包括：

遍历模块，用于对重复串进行遍历；

前后缀统计模块，用于根据记录好的前缀ID和后缀ID，依次统计重复串前缀和后缀同一词语出现的频率。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广州多益网络股份有限公司;多益网络有限公司;广东利为网络科技有限公司，未经广州多益网络股份有限公司;多益网络有限公司;广东利为网络科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710627611.2/1.html，转载请声明来源钻瓜专利网。

上一篇：数据处理方法、装置、存储介质和处理器
下一篇：一种信息查询方法、装置、电子设备及存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种提取有意义串的方法及装置有效

专利文献下载