[发明专利]基于层次嵌入的方面抽取方法在审
| 申请号: | 201810840667.0 | 申请日: | 2018-07-27 | 
| 公开(公告)号: | CN108984532A | 公开(公告)日: | 2018-12-11 | 
| 发明(设计)人: | 刘漳辉;肖顺鑫;郭昆;陈羽中 | 申请(专利权)人: | 福州大学 | 
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 | 
| 代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 | 
| 地址: | 350108 福建省福*** | 国省代码: | 福建;35 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 抽取 嵌入的 嵌入 神经网络 双向循环 预处理操作 原始语料 多阶段 有效地 级联 标注 自动化 | ||
1.一种基于层次嵌入的方面抽取方法,其特征在于,按照如下步骤实现:
步骤S1:对在线评论文本进行预处理;
步骤S2:对低频词进行过滤,过滤掉文本中出现频次小于预设阈值的单词;
步骤S3:进行字符嵌入和单词嵌入初始化;
步骤S4:通过采用字符嵌入和字符层次双向循环神经网络获得字符层次的词特征;
步骤S5:将词嵌入特征和字符层次的词特征进行级联,通过采用词层次的双向循环神经网络获得最终的标注结果。
2.根据权利要求1所述的基于层次嵌入的方面抽取方法,其特征在于,在所述步骤S1中,所述预处理还包括如下步骤:
步骤S11:进行分词处理;采用NLTK工具提供的正则分词器,并设置正则匹配规则;
步骤S12:进行特殊符号处理;移除文本中出现的各种标点符号;
步骤S13:进行数字处理;将语料中的所有数字都用单词“DIGIT”进行替换;
步骤S14:进行转小写处理;将同一个单词的不同大小写形式都转换成统一的小写形式;
步骤S15:进行词形还原处理;采用NLTK工具提供的词形还原功能将一个词的各种形式还原到一般形式;
步骤S16:进行词干提取处理;采用NLTK工具提供的词干提取功能提取一个单词的词干或词根形式。
3.根据权利要求1所述的基于层次嵌入的方面抽取方法,其特征在于,在所述步骤S2中,还包括如下步骤:
步骤S21:选定低频词过滤阈值;根据如下公式过滤掉出现频次小于过滤阈值的单词;
Lw={wi|fi<F}
其中,fi为单词wi在所有语料中出现过的次数,F为相应的低频词过滤阈值,且F∈{1,2,3,4,5,6,7,8,9,10};
步骤S22:进行低频词过滤;根据所选定的低频词过滤阈值,过滤掉所用到的语料中,出现次数少于该阈值的所有低频词。
4.根据权利要求1所述的基于层次嵌入的方面抽取方法,其特征在于,在所述步骤S3中,还包括如下步骤:
步骤S31:采用Google Embeddings初始化词嵌入;该Google Embeddings在谷歌新闻语料上通过采用基于词袋的模型进行训练建立,其中,每个单词都被表示成一个固定维度为300维的向量;将经预处理和低频词过滤后的所有单词使用Google Embeddings进行向量化,如果该单词不存在于Google Embedding,则将该单词标记为“UNKONWN”并进行相应的向量化;
步骤S32:采用Amazon Embeddings初始化词嵌入;该Amazon Embeddings在Amazon商品评论语料上采用基于词袋的模型进行训练建立,其中,每个单词都被表示成一个固定维度为300维的向量;将经预处理和低频词过滤后的所有单词使用Amazon Embeddings进行向量化,如果该单词不存在于Amazon Embeddings,则将该单词标记为“UNKONWN”并进行相应的向量化;
步骤S33:随机初始化词嵌入;将每个单词随机初始化为预设固定维数的向量,向量中的每一维的数值都介于0到1之间,其维数dw={50,100,150,200,250,300};
步骤S34:随机初始化字符嵌入;将单词中的每个字符都随机初始化为预设固定维数的向量,向量中的每一维的数值都介于0到1之间,其维数dc=150。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810840667.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于语文教材的图书阅读难度方法及系统
 - 下一篇:一种词汇义原预测方法及装置
 





