资源类型:
申请人:
山西智能大数据研究院有限公司
;
山西白求恩医院(山西医学科学院、华中科技大学同济医学院附属同济医院山西医院、山西医科大学第三医院、山西医科大学第三临床医学院)
;
当前专利权人:
山西智能大数据研究院有限公司
;
山西白求恩医院(山西医学科学院、华中科技大学同济医学院附属同济医院山西医院、山西医科大学第三医院、山西医科大学第三临床医学院)
;
申请号:
申请日期:
授权年份:
公开号:
公开日:
法律状态:
主分类号:
分类号:
摘要:
本发明提供一种肠道菌群超级供体画像信息检测生成方法,属于肠道菌群超级供体画像生成技术领域;所要解决的技术问题为:为克服目前针对画像生成方法的研究均没有涉及肠道菌群超级供体的缺陷,提供一种肠道菌群超级供体画像信息检测生成方法;解决该技术问题采用的技术方案为:首先从生理、心理、体检、生活史、生活习惯五个维度采集供体的数据信息,对采集数据进行预处理:包括删除唯一属性、NLP模型提取关键字、标签编码、数据缩放、去除异常值等处理步骤,并得到每个维度的原始特征集;基于聚类算法将每个维度的数据进行聚类,得到超级供体的初始特征;本发明应用于肠道菌群超级供体的画像生成。
主权项:
1.一种肠道菌群超级供体画像信息检测生成方法,其特征在于:包括如下检测生成步骤:步骤一:对肠道菌群超级供体画像信息进行采集:由管理系统前端通过软件程序获取供体的个人基本信息、生活史调查表、粪便类型调查表、WEXNER便秘评分、胃肠生活质量评分、膳食营养调查表、生活习惯调查表、体检报告信息;再由管理系统后台从生理、心理、体检、生活史、生活习惯五个维度导出能够治愈疾病的供体数据;步骤二:基于特征提取模块对采集信息进行处理:步骤2.1:采用第一处理模块对数据进行预处理,预处理数据包括唯一属性、分类特征、文字输入型开放式特征,具体将唯一属性数据删除,提取分类特征中的特征值,采用已训练的自然语言处理模型从文字输入型开放式特征数据中提取关键字;步骤2.2:使用标签编码将文本特征值映射为整数编码,将采集信息均转换为数值型数据,且无唯一属性;步骤2.3:执行数据缩放及异常值处理:对数据的所有维度执行数据缩放,将值缩放在0-100之间;步骤2.4:采用箱型图去除异常点,删除数据中所有被怀疑有噪声或异常值的数据点,使用所有维度来计算数据点之间的距离,并使用产生的单维距离向量来识别异常值;步骤2.5:采用第二处理模块的DWMB聚类算法对供体各维度的原始特征集进行数据处理,得到供体各维度的原始特征集下最优数量的子簇群:步骤2.5.1:在划分阶段,数据被划分为最优数量的小子簇群:具体在数据的所有维度上进行划分,使用K-means算法计算数据每个维度的最优簇群数量,然后利用所有维度的子簇群交集划分整个数据为最佳数量的子集群,之后使用同样的步骤进一步划分最佳数量的子集群,最后使用K-means算法将上述每个子集群进一步划分为另外两个集群;步骤2.5.2:在合并阶段,基于划分阶段创建的小子簇群被再次合并,形成数据中的实际簇群,主要步骤包括:对数据的投影,对投影数据概率密度的估计,计算重叠区域;步骤三:对特征集数据进行选择提取,从特征有效性及特征冗余度两方面综合生成特征评价系数,并基于特征评价系数生成每个维度的最优特征子集:步骤3.1:评价特征有效性具体由信息增益衡量,对于特征Y的信息增益,可以衡量Y的引入对随机变量X的不确定性降低的有效程度确定,计算公式为:;式中,A(X)为随机变量X的信息熵,计算公式为:;式中,是随机变量X可能的取值,为对应的发生概率;式中,A(X|Y)为特征Y加入后随机变量X的信息熵,计算公式为:;式中,为特征Y可能的取值,为对应的发生概率,为对于某一特征取值其内部包含样本i分属各个簇的概率;步骤3.2:评价特征冗余度具体由Spearman相关系数衡量,基于Spearman相关系数可度量不同特征间的相似程度,计算公式为:;式中,为特征,的样本个数;为特征与的第个取值在各自样本中所处排列顺序的差值;步骤3.3:针对目标特征集S⊆T,综合信息增益所度量的特征有效性及特征间相关系数所度量的冗余性,构建特征集评价系数,计算公式为:;式中,H(S)为特征集S中所有特征的信息增益指标,计算公式为:;式中,B(S)为特征集S中所有特征的冗余度指标,计算公式为:;式中,为特征集S所包含的特征个数,为属于特征集S的2个不同特征;步骤3.4:通过特征评分系数对上述第二处理模块中每个维度的簇群特征子集进行迭代评分,选择评分最高的子集作为最优特征子集,若两特征子集评分相同,则选择特征数更少的子集作为最优特征子集;步骤四:基于步骤三获取的最优特征子集,得到每个维度的最优特征及其特征值,进一步得到菌群移植超级供体的标签,基于生理、心理、体检、生活史、生活习惯五个维度的标签构建菌群移植超级供体的画像。