[发明专利]一种中医细粒度证候名分割的远程监督方法有效
| 申请号: | 201811186683.9 | 申请日: | 2018-10-11 |
| 公开(公告)号: | CN109408831B | 公开(公告)日: | 2020-02-21 |
| 发明(设计)人: | 王亚强;闫飞飞;王晓峰;舒红平;唐聃 | 申请(专利权)人: | 成都信息工程大学 |
| 主分类号: | G06F40/45 | 分类号: | G06F40/45;G06F40/289;G16H20/90 |
| 代理公司: | 北京元本知识产权代理事务所 11308 | 代理人: | 常桑 |
| 地址: | 610225 四川省成都市双*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 中医 细粒度 证候名 分割 远程 监督 方法 | ||
本发明是一种实现中医细粒度证候名分割的远程监督方法,其使用中医证候的命名和翻译惯例来训练基于中医细粒度证候名分割的条件随机场模型,首先利用汉英平行语料库中医证候的汉英字词关系,采用概率对准方法构建带噪声的标记训练数据,该概率对准方法可以启发式地结合正向对准和反向检查来推断出中医证候中的细粒度段,然后使用这些细粒度段训练条件随机场模型。本发明构思合理、简单,用于训练中医药领域中的基于中医细粒度证候名分割的条件随机场模型,几乎不依赖甚至不需要手工标记训练数据。
技术领域
本发明属于医疗领域,具体涉及一种中医细粒度证候名分割的远程监督方法。
背景技术
综合症是中医学(TCM)独有的概念。也是中医学(TCM)的重要支柱。症候名包括了病因学,疾病的位置、疾病的性质、疾病的倾向、病理学和健康的气和致病的气的关系。对中医证候的清晰认识有助于研究人员发现中医的规律。人们普遍认识到,对综合征的清晰认识将有助于研究人员发现中医的规律,且有助于将中医和西医结合起来。综合征通常以粗粒形式出现,然而,潜藏在粗粒中医综合征中的细粒度医学信息尚未被研究。在本文中,我们通过远程监督方法研究中医细粒度证候分割(FGSS),以建立用于训练中医FGSS的CRFs的带噪标记数据。该方法的可行性和有效性经过一系列精心设计的实验进行了论证,最好的F1值可以达到0.9177。
中医文献和临床记录中的证候通常以粗粒度形式存在。例如,当给定一个复杂的描述,其中包含了发热、恶寒、口渴、头痛、舌红、苔薄白和脉浮数时,会被诊断为症候名中的“外感风热”。从学术上来说,它由三个部分组成,包括外感表证,风证和热证。根据中医诊断理论,这些细粒综合征是根据许多医学描述推断的。为了获取细粒度的信息,需要将粗粒度综合征分割成细粒度的形式。
然而,大多数关于中医证候相关知识发现的研究并未解决上述细粒度分割问题。
中医证候的名称可以看作是字串,细节的中医证明是特殊的中文字,而FGSS则是中文的分词任务。然后,可以通过利用监督序列标记模型来解决这个分割任务,例如,隐马尔科夫模型,最大熵马尔科夫模型和条件随机场(CRFs)。然而,这些监督模型在构建标注的训练数据的过程中面临着劳动密集型问题。半监督模型虽然会降低手工劳动的成本,但一些标记数据仍然是必需的,并且由于需要跨领域知识,手动构建特定领域的数据集仍然是一项具有挑战性的任务。
发明内容
本发明为了解决上述背景技术中存在的分割粗粒度症候成细粒度形式需要专业人士手工标记数据的问题,提出了一种中医细粒度证候名分割的远程监督方法,其几乎不依赖甚至不需要手工来标记训练数据,经过实验验证了可行性和有效性,最高F1分数达到0.9177,与通过手动分割数据训练的CRF结果(0.939)相比,这是一个有竞争力的值。
本发明的技术方案为:
上述的中医细粒度证候名分割的远程监督方法,其使用中医证候的命名和翻译惯例来训练基于中医细粒度证候名分割的条件随机场模型,首先利用汉英平行语料库中医证候的汉英字词关系,采用概率对准方法构建带噪声的标记训练数据,该概率对准方法可以启发式地结合正向对准和反向检查来推断出中医证候中的细粒度段,然后使用这些细粒度段训练条件随机场模型。
所述中医细粒度证候名分割的远程监督方法,其中,所述远程监督方法的具体包括以下步骤:(1)用中医证候的英文翻译中的词语之间的自然分隔符来建立中医细粒度证候名分割的条件随机场的训练数据;(2)通过概率对准方法将中医症候中的中文字符与相应翻译的英文单词对准;(3)训练中医学领域基于中医细粒度证候名分割的条件随机场模型。
所述中医细粒度证候名分割的远程监督方法,其中:所述步骤(1)具体是通过对中医症候命名风格的观察和中英翻译惯例,中医证候的细粒度片段通过中医证候相应翻译中英文单词之间的自然分隔符来识别,中医证候的细粒度片段将构成用于在中医学领域中基于中医细粒度证候名分割的条件随机场训练的标记数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都信息工程大学,未经成都信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811186683.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数学代数运算式翻译软件
- 下一篇:基于重复句检测的翻译质量预警方法及其系统





