[发明专利]基于统计和深度学习的智能中文分词方法有效
| 申请号: | 201910655795.2 | 申请日: | 2019-07-19 |
| 公开(公告)号: | CN110414002B | 公开(公告)日: | 2023-06-09 |
| 发明(设计)人: | 徐建国;刘梦凡;刘泳慧 | 申请(专利权)人: | 山东科技大学 |
| 主分类号: | G06F40/284 | 分类号: | G06F40/284;G06N3/0442 |
| 代理公司: | 北京汇捷知识产权代理事务所(普通合伙) 11531 | 代理人: | 马金华 |
| 地址: | 266590 山东*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 统计 深度 学习 智能 中文 分词 方法 | ||
本发明公开了基于统计和深度学习的智能中文分词方法,包括数据预处理;领域术语集构建;分词方法选择;分词判定。本发明的有益效果是采用了基于统计的分词方法与深度学习技术相结合的分词模型,适用范围广,能对专业领域专业词语进行准确分词,算法简单分词速度快。
技术领域
本发明属于分词技术领域,涉及一种针对专业领域文档,能够提高其专业术语分词准确性的技术。
背景技术
中文分词(Chinese Word Segmentation)就是将一个汉字序列切分成一个个单独的词的过程,它是进行自然语言处理的基础。中文信息处理作为自然语言处理的一个分支,它包括三个层次:词法分析、句法分析和语义分析,其中中文分词是词法分析的第一步。中文分词应用领域十分广泛,小到POS词性标注、NER命名实体识别,大到自动分类、自动校对、搜索引擎、语音合成、机器翻译等。基于统计的中文分词方法,分词准确性不高,尤其难以对专业领域专业词语进行准确分词;仅使用基于深度学习的分词方法,算法复杂度高,分词速度慢。
发明内容
本发明的目的在于提供基于统计和深度学习的智能中文分词方法,解决了仅使用双向LSTM算法进行中文分词时复杂性高,分词速度慢等问题。本发明的有益效果是采用了基于统计的分词方法与深度学习技术相结合的分词模型,适用范围广,能对专业领域专业词语进行准确分词,算法简单分词速度快。
本发明所采用的技术方案是按照以下步骤进行:
Step1.数据预处理;
Step2.领域术语集构建;
Step3.分词方法选择;
Step4.分词判定。
进一步,Step1.中对待分词的文本文档进行预处理,借助文中原有标点符号、段落分隔符等具有分隔作用的符号将文档切分,从而得到较短的句子或字符串。
进一步,Step2.中对某个领域中各个子学科从1到n进行编号,建立术语集TS,统计各个子学科中最常用的m个专业术语,这些每个学科最常用的专业术语分别构成相应的学科术语集TSi。
进一步,Step3.中根据待分词文档题目判断本文档所属子学科领域,提取相应学科术语集TSi,遍历术语集TSi,统计待分词文档中包含的学科领域专业术语及其数量,文档段落中专业术语出现总次数即为定义专业术语数量阈值为Γ=k·total_num,分词方法的选择如下所示:
文档中专业术语出现总次数等于每个专业术语出现次数的累加和,其中,numj表示第j个专业术语在文档中出现的次数,对于专业术语数量阈值Γ=k·total_num,其中,k表示比例系数,total_num表示文档总字数,当待分词文档某一段落中专业术语出现总次数大于阈值时,说明该段落大量使用了学科领域的专业术语,为提高分词准确率,应采用双向LSTM算法进行分词;当待分词文档某一段落中专业术语出现总次数小于阈值时,可以认为该段落为一般性描述,专业术语使用较少,故采取基于统计的分词方法即隐马尔科夫模型完成对段落的分词。
进一步,Step4.中定义一个成词信息熵Ψ
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东科技大学,未经山东科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910655795.2/2.html,转载请声明来源钻瓜专利网。





