[发明专利]一种基于语义层次聚类的软件功能需求分类方法及系统在审
| 申请号: | 202011488329.9 | 申请日: | 2020-12-16 |
| 公开(公告)号: | CN112417893A | 公开(公告)日: | 2021-02-26 |
| 发明(设计)人: | 张腾飞;刘建;褚福常 | 申请(专利权)人: | 江苏徐工工程机械研究院有限公司 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06K9/62 |
| 代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 陈珉 |
| 地址: | 221004 江苏省徐*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 语义 层次 软件 功能 需求 分类 方法 系统 | ||
本发明公开了一种基于语义层次聚类的软件功能需求分类方法,包括将功能需求文本整理成名词加动词的标准文本;对整理后的标准文本进行切词;对切词后的文本构建词袋模型;将词袋模型中的词袋向量转成权值向量;对转换后的权值向量进行余弦相似度计算;对经过余弦相似度计算后的权值向量进行聚类,本发明利用层次聚类算法计算能力强,效率高且分类个数可调的特点,直观准确的显示分类效果。
技术领域
本发明属于软件需求分类技术领域,尤其涉及一种基于语义层次聚类的软件功能需求分类方法及系统。
背景技术
随着工程机械行业日益增多的智能化、网联化、数字化等功能,并且机型种类多,自然语言描述的需求文本也日益增多,对需求文本处理的好坏,决定了工程机械软件开发的品质。然而当前需求文本的处理方法还停留在人工分类阶段,人工分类存在对人的分类经验要求较高,领域知识不全面,主观影响较大,分类效率不高,难以准确分类等缺点。分类精准化和高效化是解决上述缺点的主要途径,也是提升工程机械开发品质的关键。
目前工程机械行业对文本功能需求分类主要采用人工分类,分类效果较差,针对工程机械机型较多、分类要求较为精确的特点,如果没有高效准确的分类方法,只借助人工分类,不仅不直观精度也难以把握。
发明内容
本发明的目的在于提供一种基于语义层次聚类的软件功能需求分类方法及系统,能够对软件功能需求进行高效分类。
为实现上述目的,本发明提供如下技术方案:
第一方面,提供了一种基于语义层次聚类的软件功能需求分类方法,包括:
将功能需求文本整理成名词加动词的标准文本;
对整理后的标准文本进行切词;
对切词后的文本构建词袋模型;
将词袋模型中的词袋向量转成权值向量;
对转换后的权值向量进行余弦相似度计算;
对经过余弦相似度计算后的权值向量进行聚类。
结合第一方面,进一步的,所述对切词后的文本构建词袋模型具体为:将切词后的文本去重后构建成词条列表,然后将文本构建成一个向量,向量的维度与词条列表的维度相同,向量的值为词条在该文本中出现的次数。
结合第一方面,进一步的,通过TF-IDF统计法将词袋向量转换为权值向量。
结合第一方面,进一步的,所述对转换后的权值向量进行余弦相似度计算具体为:采用下式对转换后的权值向量进行余弦相似度计算:
Ai、Bi分别为进行相似度比较的两个权值向量,n为样本总量;然后将相似的向量归为一类。
结合第一方面,进一步的,所述对经过余弦相似度计算后的权值向量进行聚类为:
将归为一类的向量作为一个初始聚类簇,然后找出两个聚类最近的两个簇进行合并,不断重复,直到达到预设条件。
结合第一方面,进一步的,两个簇之间的距离通过下式进行计算:
最小距离:
最大距离:
平均距离:
其中,Ci和Cj分别表示第i和第j个簇,X和Z分别表示簇Ci和Cj中的样本。
结合第一方面,进一步的,还包括将聚类的结果数据可视化,去除单独成为一类的数据,将两个或两个以上的需求文本聚成一类进行可视化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏徐工工程机械研究院有限公司,未经江苏徐工工程机械研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011488329.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:机械抓手式自动洗头装置
- 下一篇:一种艇员人体效能衰退程度预测方法及系统





