[发明专利]一种基于URL的中文多语义名词的在线语义挖掘系统无效
| 申请号: | 201310431789.1 | 申请日: | 2013-09-22 |
| 公开(公告)号: | CN103488741A | 公开(公告)日: | 2014-01-01 |
| 发明(设计)人: | 刘一正 | 申请(专利权)人: | 华东师范大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 上海蓝迪专利事务所 31215 | 代理人: | 徐筱梅;张翔 |
| 地址: | 200241 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 url 中文 语义 名词 在线 挖掘 系统 | ||
技术领域
本发明涉及网页爬虫、网页信息清洗、命名实体识别、URL特征提取、基于URL的语义分类、文本特征词提取、聚类算法等技术领域,具体地说是一种基于URL利用开放的互联网信息实时进行中文语义挖掘的多语义词语义挖掘系统。
背景技术
语义知识学习在人工智能领域中的重要应用,因此,一直以来都是自然语言处理(NLP)研究中的热点问题。其中,语义挖掘研究多语义词的语义信息获取,在相关度计算、查询扩展等领域得到广泛应用。名词的多语义特征表现的尤为明显,所以它是语义挖掘的研究重点。对于中文多语义名词,语义挖掘应能较为全面地挖掘出其最新语义。例如对于多语义名词“苹果”,语义挖掘应能挖掘出其包括“公司”、“水果”、“电影”等在内的多个语义。
传统的语义挖掘方法大多仅涉及文本或html文件的语义信息处理,通过对网页正文或语料文本进行词法或语法分析,挖掘出多语义词的多个语义。由于涉及到分词、词法分析及语法分析等文本处理步骤,传统的语义挖掘效率较低。在线语义挖掘需要下载相关网页,而网页下载非常耗时,使得挖掘过程尤为缓慢,以往的语义挖掘方法并不高效。总之,以往的语义挖掘方法多基于文本处理,未能充分利用其它在线语义信息。
与在线获取网页html文件相比,获取网页URL速度较快。基于网页URL特征的分类方法已在网页主题分类及查询分类领域得到广泛应用。
发明内容
本发明的目的是针对现有技术中的缺陷而提供的一种基于URL的中文多语义名词的在线语义挖掘系统,该系统利用基于URL的分类方法得到多语义词搜索结果的初始语义分类,即根据其URL对搜索结果按语义分类;随后对初始语义分类的网页摘要进行聚类,最终得到中文多语义词的语义挖掘结果,最终语义挖掘结果由一组与该语义相关的标签表示。
实现本发明目的的具体技术方案是:
一种基于URL的中文多语义名词的在线语义挖掘系统,该系统包括基于URL的语义分类模块及语义生成模块,其中:
所述基于URL的语义分类模块利用互联网网页中URL中的语义特征,对中文多语义词的搜索结果进行语义分类;其该模块的生成:中文权威网站发布并更新URL网址分类目录,此目录会对其收录的网站URL及其对应的语义类别;根据多个权威网站的网页目录,对其收录的网页URL及对应的语义分类进行归纳、去重,以构建URL分类器; URL分类器为树状结构,树中叶子结点即为其收录的网站主页URL,非叶子结点则为其子结点的语义类别;
所述基于URL的语义生成模块根据中文多语义词搜索结果中的网页摘要部分,对基于URL语义分类模块中所得结果进行聚类,并采用top-N筛选出每类的特征词,作为多语义词的语义分类结果;其该模块的多语义词的语义生成过程:
ⅰ)对于构建的URL分类器所得的初始语义分类中的网页摘要进行分词处理,并按改进的基于词频的方法选取特征词;
ⅱ)根据所得特征词,对网页摘要进行聚类,聚类方法为Single-link聚类;
ⅲ)采用top-N,对每类选取一组特征词,表示最终的语义挖掘结果。
所述中文多语义词的搜索结果指多语义词通过中文在线搜索引擎所获得的网页搜索结果,包括网页URL及网页摘要。
所述构建URL分类器的过程:
ⅰ)将网页URL按标识符分段,提取分类特征;
ⅱ)将提取得来的URL分类特征同URL目录下的叶子结点进行相似度匹配,若相似度超过阈值,则将此叶子结点的语义分类作为该网页的候选语义分类;若未达到阈值,则不做任何处理;
ⅲ)按照top-N,为每个网页从候选语义分类中确定其语义分类。
所述选取特征词的方法是:
其对传统的基于词频的方法进行改进,得到最能代表初始分类结果的聚类特征,定义W为:
其中为某一初始语义分类的词频数,为某候选特征词在对应的初始语义分类下的词频数,选取较大W值对应的词为特征词。
本发明提供一种基于URL利用开放的互联网信息实时进行中文语义挖掘的多义词语义挖掘系统,包括URL语义分类模块及语义生成模块。其中,所述URL语义分类模块利用互联网网页中URL中的语义特征,对中文多语义词的搜索结果进行语义分类;所述语义生成模块根据中文多语义词搜索结果中的网页摘要部分,对URL分类模块中所得结果进行聚类,并采用top-N策略筛选出每类的特征词,作为多语义词的语义分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310431789.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:食品成型滚筒
- 下一篇:一种无锁数据汇聚方法及装置





