[发明专利]一种LIWC词表扩展方法有效
申请号: | 201711364040.4 | 申请日: | 2017-12-18 |
公开(公告)号: | CN108073704B | 公开(公告)日: | 2020-07-14 |
发明(设计)人: | 刘知远;杨成;曾祥楷;涂存超;孙茂松 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/253;G06F40/279;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;李相雨 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 liwc 词表 扩展 方法 | ||
本发明提供一种LIWC词表扩展方法,包括:S1,根据目标单词的义元和目标单词的第i‑1层标签,应用注意力机制构建目标单词的第i层上下文表示;S2,将所述第i‑1层标签、第i层上下文表示与循环神经网络的第i‑1层隐状态输入循环神经网络,获取第i层隐状态;S3,应用第i层隐状态获取目标单词的第i层标签;S4,重复S1至S3,逐层获取目标单词的各层标签;其中,m≥i≥1,i为整数,m为目标单词所包含的总层数。本发明提供的一种LIWC词表扩展方法,通过基于注意力机制结合义元的循环神经网络对LIWC词表进行自动扩展,避免了人工扩展导致的误差,提高了LIWC词表标注的精确性,节省了人力成本和时间成本。
技术领域
本发明涉及语言检索与字词统计词表技术领域,尤其涉及一种LIWC词表扩展方法。
背景技术
语言检索与字词统计(Linguistic Inquiry and Word Count,LIWC)是自然语言处理技术(Nature Language Processing,NLP)中的一种,它可以对文本内容进行量化分析并将导入的文本文件的不同类型的细语加以计算。LIWC词表手动地将单词分为由粗至细的细化分类中,由于其良好的信效度,LIWC词表已经被广泛使用于社会科学等领域,例如实验心理学、计算语言学和健康诊断等。
虽然LIWC已经在多个领域发挥了作用,但却只包含7000左右个单词。而汉语作为全球使用人数最多的语言,其常用单词超过5万个,当前标注的LIWC词表是远远不够的。因此,LIWC词表亟待扩展和完善,以便于更好的应用在科学研究中。目前,通用的LIWC词表的扩展方法是手工标注,然而手工标注十分耗时耗力,而且需要语言专家来添加新的单词,实用性差,效率底下。
发明内容
本发明为解决现有技术中存在的人工扩展LIWC词表费时费力的问题,提供了一种LIWC词表扩展方法。
一方面,本发明提出一种LIWC词表扩展方法,包括:S1,根据目标单词的义元和所述目标单词的第i-1层标签,应用注意力机制构建所述目标单词的第i层上下文表示;S2,将所述第i-1层标签、第i层上下文表示与循环神经网络的第i-1层隐状态输入所述循环神经网络,获取第i层隐状态;S3,应用所述第i层隐状态获取所述目标单词的第i层标签;S4,重复所述步骤S1至S3,逐层获取所述目标单词的各层标签;其中,m≥i≥1,i为整数,m为所述目标单词所包含的总层数。
优选地,所述步骤S1进一步包括:S11,应用word2vec将目标单词的若干个义元转换为若干个义元向量;S12,根据所述若干个义元向量和第i-1层标签,应用注意力机制构建所述目标单词的第i层上下文表示。
优选地,所述步骤S12中,所述第i层上下文表示ci为:
其中,hj是所述若干个义元中第j个义元的义元向量,αij定义为:
其中,k为所述目标单词的义元总数,eij定义为:
eij=vTtanh(W1yi-1+W2hj)
其中,v、W1和W2为权重矩阵,yi-1为所述第i-1层标签。
优选地,所述步骤S2进一步包括:将所述第i-1层标签yi-1、第i层上下文表示ci与循环神经网络的第i-1层隐状态si-1输入所述循环神经网络,根据如下公式获取第i层隐状态si:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711364040.4/2.html,转载请声明来源钻瓜专利网。