[发明专利]一种地名新词的发现方法在审
申请号: | 201810246763.2 | 申请日: | 2018-03-23 |
公开(公告)号: | CN108647199A | 公开(公告)日: | 2018-10-12 |
发明(设计)人: | 李俊;孙海峰;徐忠建;朱必亮;冯建亮 | 申请(专利权)人: | 江苏速度信息科技股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 南京正联知识产权代理有限公司 32243 | 代理人: | 陆中丹 |
地址: | 210000 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种地名新词的发现方法,包括以下步骤:S1:构建原始文档集合:利用网络爬虫程序或RSS的方法从互联网中对网页文本进行爬取,并利用网页解析软件对爬取的文本进行解析,形成原始的文档集合;S2:预处理原始文档:对步骤S1中构建的原始文档集合中的文档进行预处理;S3:分词处理:采用基于字符串匹配的方法和概率统计相结合的方法进行中文分词处理,设计分词词典;S4:提取地名新词:利用步骤S3中生成的分词词典,对分词词典进行分类,并将词典进行分割,得到有益于处理的长度,然后提取出地名新词。利用互联网上容易获取的网页资源进行地名新词的发现,提高了发现新词汇的机会且有效提高新词发现的精度与准确率。 | ||
搜索关键词: | 原始文档 分词 预处理 构建 发现 集合 字符串匹配 分词处理 概率统计 网络爬虫 网页解析 网页文本 网页资源 文档集合 新词发现 中文分词 互联网 新词汇 准确率 文档 解析 文本 分割 分类 | ||
【主权项】:
1.一种地名新词的发现方法,其特征在于,包括以下步骤:S1:构建原始文档集合:利用网络爬虫程序或RSS的方法从互联网中对网页文本进行爬取,并利用网页解析软件对爬取的文本进行解析,形成原始的文档集合;S2:预处理原始文档:对步骤S1中构建的原始文档集合中的文档进行预处理;S3:分词处理:采用基于字符串匹配的方法和概率统计相结合的方法进行中文分词处理,设计分词词典;S4:提取地名新词:利用步骤S3中生成的分词词典,对分词词典进行分类,并将词典进行分割,得到有益于处理的长度,然后提取出地名新词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏速度信息科技股份有限公司,未经江苏速度信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810246763.2/,转载请声明来源钻瓜专利网。