[发明专利]一种识别方法、装置和用于识别的装置有效
申请号: | 201711023746.4 | 申请日: | 2017-10-27 |
公开(公告)号: | CN109726612B | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 邱彪;李明修;银磊 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 方法 装置 用于 | ||
本发明实施例提供了一种识别方法、装置和用于识别的装置。其中的方法具体包括:确定医案在文本中的起始位置;对所述起始位置之后的文本内容进行识别,以得到所述医案在所述文本中的结尾位置;依据所述起始位置与所述结尾位置,得到所述医案的文本内容。通过本发明实施例不仅可以提高医案提取的效率,而且可以节省人力资源。
技术领域
本发明涉及医药技术领域,尤其涉及一种识别方法、装置和用于识别的装置。
背景技术
医案,也称病案,是指医学中临床实践的记录,也即医生在治疗疾病时对有关症状、处方、用药等所做的记录。中医的医案历史悠久,浓缩、涵盖了中医基础理论和临床各方面的知识,可谓博大精深。通过学习和研究医案,不仅能丰富和深化理论知识,而且可以提高临床诊疗水平,开阔视野,对于医学工作者具有重要意义。
然而,大量的医案通常被嵌入在医学书籍或者医学文本资料中,想要把其中的医按提取出来,集中进行学习和分析,通常通过人工方式,查阅各种医学书籍或者医学文本资料,找到其中的医案,并且逐一提取出来,不仅耗费大量的人力以及时间资源,而且医案的提取效率较低。
发明内容
本发明实施例提供一种识别方法、装置和用于识别的装置,以解决现有技术中医案的提取效率较低的问题。
为了解决上述问题,本发明公开了一种识别方法,包括:
确定医案在文本中的起始位置;
对所述起始位置之后的文本内容进行识别,以得到所述医案在所述文本中的结尾位置;
依据所述起始位置与所述结尾位置,得到所述医案的文本内容。
可选地,所述确定医案在文本中的起始位置,包括:
提取所述文本中语言单位的第一特征,所述第一特征包括:第一特征词、和/或所述第一特征词的位置、和/或所述第一特征词的数目;
若所述第一特征与第一预置特征相匹配,则依据所述语言单位得到医案在所述文本中的起始位置。
可选地,所述语言单位包括:段落的首句文本。
可选地,所述确定医案在文本中的起始位置,包括:
根据第一识别模型,对所述文本进行识别,以确定医案在所述文本中的起始位置;所述第一识别模型为根据收集的医案的起始样本训练得到。
可选地,所述对所述起始位置之后的文本内容进行识别,以得到所述医案在所述文本中的结尾位置,包括:
将待识别段落序列中的第一个段落作为待识别段落,判断所述待识别段落是否满足第一结尾条件,若是,则依据所述待识别段落得到所述医案在所述文本中的结尾位置;否则,将所述段落序列中待识别段落的下一个段落作为新的待识别段落,判断所述新的待识别段落是否满足第一结尾条件;所述待识别段落序列中依次包括所述起始位置所在段落及其之后的段落。
可选地,所述判断所述待识别段落是否满足第一结尾条件,包括:
提取所述待识别段落对应语言单位的第二特征;所述第二特征包括:所述待识别段落的末句文本中包含的第二特征词、和/或所述第二特征词的位置、和/或所述第二特征词的数目;
若所述第二特征与第二预置特征相匹配,则判定所述待识别段落满足第一结尾条件。
可选地,所述判断所述待识别段落是否满足第一结尾条件,包括:
根据第二识别模型,对所述待识别段落进行识别,以判断所述待识别段落是否满足第一结尾条件;所述第二识别模型为根据收集的医案的结尾样本训练得到。
可选地,所述对所述起始位置之后的文本内容进行识别,以得到所述医案在所述文本中的结尾位置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711023746.4/2.html,转载请声明来源钻瓜专利网。