从代谢组学分析产生的海量数据中发现潜在标志物, 需要借助多变量模式识别方法. 无师监督的模式识别方法包括主成分分析(PCA、聚类分析(HCE)等; 有师监督的方法包括判别分析(DA)、偏最小二乘分析(PLS) 、偏最小二乘判别分析(PLS-DA),正交校正的偏最小二乘分析(OPLS)等. 当变量数量远大于样品数量时, PLS或 PLS-DA模型容易过拟合. 根据模式识别模型抽提出对分类有重要贡献的化合物后, 还需要进一步验证这些化合物的差异性。
出自:一种基于液相色谱-质谱技术进行血清代谢组学研究的方法: 从代谢指纹到潜在标志物
数据降维的分析方法很多,大致可分为有监督的(supervised)模式识别方法和无监督的(unsupervised)的模式识别方法。属于有监督的模式识别方法有SIMCA(Soft Independent Modeling of Class Analogy),PLS(Partial Least Squares)和PLS-DA (PLS-Discriminant Analysis)方法等。无监督的模式识别方法有PCA(Principal Component Analysis)法、非线性作图(Non-linear Mapping,NLM)和分层聚类分析(Hierarchical Cluster Analysis,HCA)等。通过数据降维模式识别分析方法的一般过程是首先对数据进行无监督的模式分析,然后选定某一类样本进行数据建模,再对变量进行加权处理,选定主成分建模的主成分数目,最后利用有监督性统计的方法判别未知样本。
出自:http://www.dxy.cn/bbs/thread/2076597#2076597
1.非监督方法(unsupervised method)按样本特性对原始数据分类,把具有相似特性的数据归为一类,用相应的可视化技术表达。包括主要成分分析(principal components analysis,PCA)、非线性映射(Nonlinear Maping,NLM)、聚类分析(HierarchicalCluster Analysis,HCA)。其中应用最多的PCA是一种高纬数据降纬的方法,将分散在一组变量的信息集中到某几个综合指标(主要成分)上,从而利用主要成分提取数据集的特征。2.有监督方法(supervised method)在已有知识的基础上建立信息组。利用已知信息组对未知数据进行规类、识别和预测。因为建立模型时有已知样本,所以称有监督方法。主要有类模拟软独立建模(Soft Independent Modeling of Class Analogy,SIMCA)、偏最小二乘法(Partial least squares,PLS)、偏最小二乘法判别分析法(PLS-DiscriminantAnalysis,PLS-DA)、人工神经网络(Artificial NeuralNetwork,ANN)等。
出自:代谢组学及其在临床中的应用
欢迎光临 统计211 (http://tj211.com/) | Powered by Discuz! X3.2 |