[发明专利]基于超声检查报告文本数据的乳腺肿瘤风险性评估系统在审
申请号: | 201711138931.8 | 申请日: | 2017-11-16 |
公开(公告)号: | CN107908621A | 公开(公告)日: | 2018-04-13 |
发明(设计)人: | 潘乔;项岚;高建强;董振兴;高念高;陈德华;孙凯歧;俞春濡 | 申请(专利权)人: | 东华大学;上海众恒信息产业股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 上海泰能知识产权代理事务所31233 | 代理人: | 宋缨,钱文斌 |
地址: | 201620 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 超声 检查 报告 文本 数据 乳腺 肿瘤 风险 评估 系统 | ||
1.一种基于超声检查报告文本数据的乳腺肿瘤风险性评估系统,其特征在于,包括超声检查文本数据的预处理模块和结构化数据的评估模块;所述超声检查文本数据的预处理模块用于将大量非结构化的文本数据转化为评估算法可识别的结构化数据;所述结构化数据的评估模块根据结构化数据建立肿瘤风险评估模型,得到评估结果。
2.根据权利要求1所述的基于超声检查报告文本数据的乳腺肿瘤风险性评估系统,其特征在于,所述超声检查文本数据的预处理模块包括:外部文件数据清洗子模块,用于从原始数据集中选出少量指标值完整的文本数据作为外部文件,并采用字符串匹配方法进一步规范外部文件数据,修改医学缩写、拼写错误、语法错误问题,以保证外部文件的绝对规范;建立指标库选定指标子模块,根据传统依存句法方法建立检测指标库,从中选择相关检测指标;提取检测指标的相应指标值子模块,基于强化学习,根据外部文件和检测指标参数,提取相应指标值,形成结构化数据。
3.根据权利要求2所述的基于超声检查报告文本数据的乳腺肿瘤风险性评估系统,其特征在于,所述建立指标库选定指标子模块采用正则匹配方法将超声检查报告切分为若干条短句,并借助Jieba分词工具对切分后的短句进行分词;对部分短句中的词语进行标注,特征因素的词语标注为“指标”,其余标注为“无关”,形成语料库;基于依存句法分析,自动识别所有短句中的指标,形成指标库,对于无法识别的特殊短句定义特征规则,将其加入语料库;从指标库中选定需要提取指标值的指标。
4.根据权利要求2所述的基于超声检查报告文本数据的乳腺肿瘤风险性评估系统,其特征在于,所述提取检测指标的相应指标值子模块基于强化学习算法,根据输入的文本数据和指标参数,进行多次迭代,在每次迭代更新中,与外部文件动态合并指标对应的指标值,即:协调当前提取指标值与外部文件中指标值的精确度,合并完后,反馈给当前网络,计算奖励函数,决定是否进行新的更新或者从外部文件中进行新的查询,直至算法终止,最终形成结构化的数据集。
5.根据权利要求1所述的基于超声检查报告文本数据的乳腺肿瘤风险性评估系统,其特征在于,所述结构化数据的评估模块包括:划分数据集子模块,用于将产生的结构化数据划分为训练集和测试集;训练数据子模块,将训练集直接应用于机器学习算法,建立肿瘤评估模型,并利用测试集检测模型的性能。
6.根据权利要求5所述的基于超声检查报告文本数据的乳腺肿瘤风险性评估系统,其特征在于,所述训练数据子模块建立SVM算法模型,所述SVM算法将乳腺肿瘤超声报告的结构化数据映射为高维特征空间的样本数据,在该样本空间中区别各特征的最优分类超平面,从而建立乳腺肿瘤判别函数,得到评估结果。
7.根据权利要求5所述的基于超声检查报告文本数据的乳腺肿瘤风险性评估系统,其特征在于,所述训练数据子模块建立KNN算法模型,所述KNN算法将乳腺肿瘤超声报告的结构化数据作为样本输入,计算待分类数据与每个样本数据之间的距离,根据k个最近距离的样本分类得到评估结果。
8.根据权利要求5所述的基于超声检查报告文本数据的乳腺肿瘤风险性评估系统,其特征在于,所述训练数据子模块建立随机森林机器学习算法模型,所述随机森林机器学习算法模型从乳腺肿瘤超声报告的结构化数据中随机抽样,构建子数据集,并利用子数据集建立子决策树,根据子决策树的分类投票得到评估结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东华大学;上海众恒信息产业股份有限公司,未经东华大学;上海众恒信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711138931.8/1.html,转载请声明来源钻瓜专利网。