[发明专利]一种地名新词的发现方法在审
申请号: | 201810246763.2 | 申请日: | 2018-03-23 |
公开(公告)号: | CN108647199A | 公开(公告)日: | 2018-10-12 |
发明(设计)人: | 李俊;孙海峰;徐忠建;朱必亮;冯建亮 | 申请(专利权)人: | 江苏速度信息科技股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 南京正联知识产权代理有限公司 32243 | 代理人: | 陆中丹 |
地址: | 210000 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 原始文档 分词 预处理 构建 发现 集合 字符串匹配 分词处理 概率统计 网络爬虫 网页解析 网页文本 网页资源 文档集合 新词发现 中文分词 互联网 新词汇 准确率 文档 解析 文本 分割 分类 | ||
本发明涉及一种地名新词的发现方法,包括以下步骤:S1:构建原始文档集合:利用网络爬虫程序或RSS的方法从互联网中对网页文本进行爬取,并利用网页解析软件对爬取的文本进行解析,形成原始的文档集合;S2:预处理原始文档:对步骤S1中构建的原始文档集合中的文档进行预处理;S3:分词处理:采用基于字符串匹配的方法和概率统计相结合的方法进行中文分词处理,设计分词词典;S4:提取地名新词:利用步骤S3中生成的分词词典,对分词词典进行分类,并将词典进行分割,得到有益于处理的长度,然后提取出地名新词。利用互联网上容易获取的网页资源进行地名新词的发现,提高了发现新词汇的机会且有效提高新词发现的精度与准确率。
技术领域
本发明涉及信息技术抽取领域,特别是涉及一种地名新词的发现方法。
背景技术
随着网络技术和信息技术的飞速发展,产生了大量的信息,据调查显示,人类社会80%以上的信息资源与地理空间相关,这些信息具有更新速度快、数据量大、来源广泛、数据结构多样等特征,但也蕴藏着丰富的地名信息。目前我国正在进行地名信息化建设,地名信息更新维护周期长、成本高、效率低,因此,从大量信息中对地名信息进行抽取获得地名新词显得尤为重要。
目前国内采用的新词发现技术主要有以下两种:
(一)基于规则的新词发现:通过使用一个预设的分词词典,利用分词词典与一定的组词规则相结合来识别新词,其主要思想是根据语言学的原理和知识来制定一些共性和个性规则,用这些规则来自动处理分析中出现的问题。其优点是发现新词的准确率较高,然而由于制定的规则只是针对某一个领域,灵活性较差,同时由于规则的获取难度加大,规则的全面制定既耗时又耗力,新词的产生速度越来越快,基于规则的方法很难满足需求。
(二)基于统计的新词发现:通过观察语料中的特征信息,寻找描述新词特征的统计量,确定候选字符串,计算其内部聚合度和自由度,在此基础上确定阈值,寻找聚合度和自由度最高的字符串组合。其优点是实现方法简单,可以应用于很多领域,对于查找较短的短语比较适合,然后这种方法需要大量的训练语料,忽略了词语内部的结构和词与词之间的构词能力等特性,新词发现的质量不是很高。
综上所述,为了有效提高新词发现的准确度和精度,有必要开发研究一种将规则和统计相结合的地名新词的发现方法。
发明内容
本发明要解决的技术问题是,提供一种地名新词发现方法,从大量信息中过滤垃圾字符串和通用词,提高地名新词发现的准确率和精度,更好地为地名信息化服务。
为了解决上述技术问题,本发明采用的技术方案是:该地名新词的发现方法,包括以下步骤:
S1:构建原始文档集合:利用网络爬虫程序或RSS的方法从互联网中对网页文本进行爬取,并利用网页解析软件对爬取的文本进行解析,形成原始的文档集合;
S2:预处理原始文档:对步骤S1中构建的原始文档集合中的文档进行预处理;
S3:分词处理:采用基于字符串匹配的方法和概率统计相结合的方法进行中文分词处理,设计分词词典;
S4:提取地名新词:利用步骤S3中生成的分词词典,对分词词典进行分类,并将词典进行分割,得到有益于处理的长度,然后提取出地名新词。
采用上述技术方案,利用网络爬虫的方法对网页文本进行抽取,并利用相应的网页解析软件对网页文本进行解析,形成原始的文档集合;然后对文档进行去除网页标签、替换标识符、切分文本、过滤非中文字符等预处理操作,将所有的文档划分为字符串的组合,利用逆向最大匹配法与N-gram法相结合的方法对字符串进行分词处理,得到中文分词结果;然后通过设置最小支持度和最小置信度,采用Apriori算法对高频噪声词进行剔除,发现频繁项目集,生成关联规则,进而发现地名新词。
本发明进一步改进在于,所述步骤S2中对原始文件进行预处理的过程具体包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏速度信息科技股份有限公司,未经江苏速度信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810246763.2/2.html,转载请声明来源钻瓜专利网。