[发明专利]一种中文文字标签云自动生成方法及装置有效
申请号: | 201310319948.9 | 申请日: | 2013-07-26 |
公开(公告)号: | CN103440256B | 公开(公告)日: | 2016-11-30 |
发明(设计)人: | 汪云海;华博;丹尼尔·科恩;陈宝权 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 深圳市科进知识产权代理事务所(普通合伙) 44316 | 代理人: | 宋鹰武;沈祖锋 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 文字 标签 自动 生成 方法 装置 | ||
技术领域
本发明属于标签提取技术领域,尤其涉及一种中文文字标签云自动生成方法及装置。
背景技术
随着科学技术的发展,特别是计算机技术的迅猛发展,人类产生和获取数据的能力成数量级地增加。其中新闻、网络和报纸有大量的新信息产生,对于这些中文文本数据的收集、分析与挖掘一直以来是研究人员工作的重点,通常采用标签来对文本数据进行标记,标定出关键字词,方便查找或定位。标签云是关键词的视觉化描述,用于汇总用户生成的标签或一个网站的文字内容。现有的中文文本的标签云生成方法通过分词技术提取出关键词,并根据Wordle算法来生成无互相遮挡的文字标签云,现有的中文文本的标签云生成方法的缺点是:分词技术受到每日更新的新词以及文本语法不规范等问题,不能根据一则文本数据准确地进行词法分析;另外,现有的标签云生成方法主要针对英文文本,所生成的标签云不能很好适应中文文字的结构。
发明内容
本发明提供了一种中文文字标签云自动生成方法及装置,旨在解决现有的标签云生成方法不能根据一则文本数据准确地进行词法分析,以及其主要针对英文文本,所生成的标签云不能很好适应中文文字结构的技术问题。
本发明提供的技术方案为:一种中文文字标签云自动生成方法,包括:
步骤a:对待分析文本数据利用汉语词法分析进行分词和词性标注;
步骤b:根据分词及词性标注结果提取出待分析文本数据的关键词和词频;
步骤c:将提取到的关键词以及其词频作为输入数据,使用标签云生成算法生成标签云。
本发明的技术方案还包括:在所述步骤a中,所述汉语词法分析采用基于层叠隐马模型的汉语词法分析,所述汉语词法分析包括:在预处理阶段,采用N-最短路径粗分方法,得到能覆盖歧义的最佳N个粗切分结果;在粗分结果集上,采用低层隐马模型结合词典语料库识别出普通无嵌套的人名、地名,并依据识别出的结果采用高层隐马模型结合词典语料库识别出嵌套了人名、地名的复杂地名和机构名;将识别出的未登录词以计算出来的概率加入到基于类的切分隐马模型中,未登录词与歧义均不作为特例,与普通词一起参与候选结果的竞争;在全局优化的分词结果上进行词性的隐马标注得到词法分析结果。
本发明的技术方案还包括:所述词典语料库进行相应更新,更新方式包括:利用网络爬虫技术对搜索引擎或新闻网站更新的新词进行抓取,并收集新词相关的新闻;将收集到新词相关的新闻加入语料库进行训练,对新词加以词性标注,将词性标注后的新词加入词典,并更新词典和语料库。
本发明的技术方案还包括:在所述步骤c中,标签云生成算法基于几何结构对关键词进行布局。
本发明的技术方案还包括:所述布局方式包括:放射式布局和线性布局,所述放射布局是将所有标签由内向外呈放射形放置,所述线性布局是将所有标签随着扫描线放置。
本发明的技术方案还包括:所述标签云生成算法包括:选择生成的布局方式,将标签按照选择的布局方式进行初始放置后,遍历所有标签,在出现标签相互遮挡时使用贪心算法围绕着尺寸小的标签中心寻找新的放置位置。
本发明提供的另一技术方案为:一种中文文字标签云自动生成装置,包括:分词和词性标注模块、关键词和词频提取模块和标签云生成模块,所述分词和词性标注模块、关键词和词频提取模块和标签云生成模块依次相连,所述分词和词性标注模块用于对待分析文本数据利用汉语词法分析进行分词和词性标注,所述关键词和词频提取模块用于根据分词及词性标注结果提取出待分析文本数据的关键词和词频,所述标签云生成模块用于将提取到的关键词以及其词频作为输入数据,使用标签云生成算法生成标签云。
本发明的技术方案还包括:所述分词和词性标注模块采用基于层叠隐马模型的汉语词法分析,具体包括:在预处理阶段,采用N-最短路径粗分方法,得到能覆盖歧义的最佳N个粗切分结果;在粗分结果集上,采用低层隐马模型结合词典语料库识别出普通无嵌套的人名、地名,并依据识别出的结果采用高层隐马模型结合词典语料库识别出嵌套了人名、地名的复杂地名和机构名;将识别出的未登录词以计算出来的概率加入到基于类的切分隐马模型中,未登录词与歧义均不作为特例,与普通词一起参与候选结果的竞争;在全局优化的分词结果上进行词性的隐马标注得到词法分析结果。
本发明的技术方案还包括:所述词典语料库进行相应更新,更新方式包括:利用网络爬虫技术对搜索引擎或新闻网站更新的新词进行抓取,并收集新词相关的新闻;将收集到新词相关的新闻加入语料库进行训练,对新词加以词性标注,将词性标注后的新词加入词典,并更新词典和语料库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310319948.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种车载冷藏机组压缩机支架
- 下一篇:一种煤粉筛选装置