下游分析針對(duì)LASSO獲得的基因模型(或稱基因Panel)的驗(yàn)證:1.計(jì)算風(fēng)險(xiǎn)指數(shù)RiskScore2.繪制ROC曲線、DCA曲線、列線圖進(jìn)行驗(yàn)證3.繪制生KM存曲線對(duì)基因模型中的基因進(jìn)行解釋和分析:1.基因注釋2.靶向藥物分析應(yīng)用示例:文獻(xiàn)1:PrognosticandpredictivevalueofamicroRNAsignatureinstageIIcoloncancer:amicroRNAexpressionanalysis.于2013年12月發(fā)表在LancetOncol.,影響因子。一個(gè)miRNA特征集在stageII結(jié)腸*的預(yù)后預(yù)測作用分析文章對(duì)stageII結(jié)腸*組織和*旁正常組織的miRNA芯片數(shù)據(jù)進(jìn)行了差異表達(dá)分析,并通過LASSOCox回歸對(duì)獲得的差異表達(dá)miRNA進(jìn)行篩選,獲得了6個(gè)miRNA的可以預(yù)測預(yù)后情況的miRNA特征集。文獻(xiàn)2:PrognosticValueofaBCSC-associatedMicroRNASignatureinHormoneReceptor-PositiveHER2-NegativeBreastCancer(于2016年9月發(fā)表在EBioMedicine.上,影響因子)文章將符合條件的患者劃分為訓(xùn)練集和測試集,首先分析獲得了**干細(xì)胞相關(guān)的miRNA,接著通過LASSO對(duì)**干細(xì)胞相關(guān)的miRNA進(jìn)行篩選,構(gòu)建了10個(gè)miRNA的預(yù)后預(yù)測模型,并計(jì)算風(fēng)險(xiǎn)指數(shù)繪制了生存曲線和ROC曲線。 目前能夠?qū)映^50家實(shí)驗(yàn)室。天津公共數(shù)據(jù)庫挖掘數(shù)據(jù)科學(xué)口碑推薦
PPImodule蛋白質(zhì)互作蛋白質(zhì)-蛋白質(zhì)相互作用(protein-proteininteraction,PPI)是指兩個(gè)或兩個(gè)以上的蛋白質(zhì)分子通過非共價(jià)鍵形成蛋白質(zhì)復(fù)合體(proteincomplex)的過程。PPImodule是指共表達(dá)蛋白模塊或蛋白質(zhì)相互作用模塊。蛋白質(zhì)相互作用形成人體復(fù)雜的蛋白質(zhì)相互作用網(wǎng)絡(luò),對(duì)蛋白質(zhì)相互作用網(wǎng)絡(luò)進(jìn)行聚類形成模塊從而幫助我們理解細(xì)胞的功能。我們一般使用PPImodule把基因列表跟蛋白相互作用網(wǎng)絡(luò)聯(lián)系起來。例如RNA-seq獲得的差異表達(dá)基因,看他們?cè)诘鞍紫嗷プ饔镁W(wǎng)絡(luò)中,哪些基因處于同一module?;驹恚旱鞍踪|(zhì)在細(xì)胞中的功能取決于它與其他蛋白質(zhì)、核酸和小分子相互作用關(guān)系,對(duì)蛋白質(zhì)相互作用網(wǎng)絡(luò)進(jìn)行聚類形成模塊,各個(gè)蛋白模塊發(fā)揮不同的功能,我們將基因列表重疊于模塊上,查找基因列表所在的功能模塊,從而發(fā)現(xiàn)基因列表中的基因可能發(fā)揮的細(xì)胞功能。我們通過PPI數(shù)據(jù)庫找到共表達(dá)蛋白中的module,然后從模塊中篩選出基因列表的產(chǎn)物蛋白,篩選出的結(jié)果就是基因列表***表達(dá)的PPImodule。 重慶成果發(fā)表指導(dǎo)數(shù)據(jù)科學(xué)專業(yè)服務(wù)結(jié)合WGCNA的ceRNA分析。
industryTemplate
術(shù)語解讀
數(shù)據(jù)降維:
降維就是一種對(duì)高維度特征數(shù)據(jù)預(yù)處理方法。降維是將高維度的數(shù)據(jù)保留下**重要的一些特征,去除噪聲和不重要的特征,從而實(shí)現(xiàn)提升數(shù)據(jù)處理速度的目的。在實(shí)際的生產(chǎn)和應(yīng)用中,降維在一定的信息損失范圍內(nèi),可以為我們節(jié)省大量的時(shí)間和成本。降維也成為應(yīng)用非常***的數(shù)據(jù)預(yù)處理方法。
數(shù)據(jù)要求:
表達(dá)譜芯片或測序數(shù)據(jù)(已經(jīng)過預(yù)處理)
下游分析
得到PCA分析結(jié)果之后的分析有:
1.對(duì)組成主要成分的基因進(jìn)行后續(xù)分析,探究該情況下關(guān)鍵基因表達(dá)情況
2.對(duì)組成不同主成分簇的基因進(jìn)行后續(xù)分析,探究該情況下不同基因集的表達(dá)情況 處理生物醫(yī)學(xué)科研領(lǐng)域的組學(xué)數(shù)據(jù)處理、數(shù)據(jù)庫建設(shè)。
LASSO回歸:更多的變量在擬合時(shí)往往可以給出一個(gè)看似更好的模型,但是同時(shí)也面臨過度擬合的危險(xiǎn)。此時(shí)如果用全新的數(shù)據(jù)去驗(yàn)證模型(Validation),通常效果很差。一般來說,變量數(shù)大于數(shù)據(jù)點(diǎn)數(shù)量很多,或者某一個(gè)離散變量有太多獨(dú)特值時(shí),都有可能過度擬合。LASSO回歸復(fù)雜度調(diào)整的程度由參數(shù)λ來控制,λ越大對(duì)變量較多的線性模型的懲罰力度就越大,從而**終獲得一個(gè)變量較少的模型。LASSO回歸與Ridge回歸同屬于一個(gè)被稱為ElasticNet的廣義線性模型家族。這一家族的模型除了相同作用的參數(shù)λ之外,還有另一個(gè)參數(shù)α來控制應(yīng)對(duì)高相關(guān)性(highlycorrelated)數(shù)據(jù)時(shí)模型的性狀。LASSO回歸α=1,Ridge回歸α=0,一般ElasticNet模型0<α<1。LASSO過程中我們通常會(huì)進(jìn)行多次交叉驗(yàn)證(crossvalidation)擬合(1000次)進(jìn)而選取模型,從而對(duì)模型的性能有一個(gè)更準(zhǔn)確的估計(jì)。 在基因組上同時(shí)展示突變位點(diǎn)和motif,為突變影響轉(zhuǎn)錄因子結(jié)合提供量化和可視化的證據(jù)。北京數(shù)據(jù)科學(xué)
云生物數(shù)據(jù)分析需要多久?天津公共數(shù)據(jù)庫挖掘數(shù)據(jù)科學(xué)口碑推薦
術(shù)語解讀:中位數(shù)Q2:二分之一分位數(shù)上四分位數(shù)Q1:序列由小到大排序后第(n+1)/4所在位置的數(shù)值下四分位數(shù)Q3:序列由小到大排序后第3(n+1)/4所在位置的數(shù)值**值:非異常范圍內(nèi)的**值,四分位距IQR=Q3-Q1,上限=Q3+最小值:非異常范圍內(nèi)的最小值,下限=數(shù)據(jù)要求:某一基因在各**及對(duì)應(yīng)的正常組織的表達(dá)數(shù)據(jù)。應(yīng)用示例1:(于2014年2月發(fā)表于Nature.,影響因子)文章研究了12種主要**類型的突變景觀和意義,它首先使用小提琴圖展示了12種**的突變頻率分布情況,然后查找確定具有***意義的突變基因。應(yīng)用示例2:(于2017年1月發(fā)表在NatCommun.,影響因子)文章研究了Pancancer建模預(yù)測體細(xì)胞突變對(duì)轉(zhuǎn)錄程序背景的特異性影響。研究人員基于開發(fā)的模型預(yù)測重要轉(zhuǎn)錄因子,然后使用預(yù)測出的突變轉(zhuǎn)錄因子的活性情況繪制泛*圖譜。 天津公共數(shù)據(jù)庫挖掘數(shù)據(jù)科學(xué)口碑推薦