術(shù)語解釋:Cox回歸:又稱比例風(fēng)險回歸模型(proportionalhazardsmodel,簡稱Cox模型),是由英國統(tǒng)計學(xué)家。該模型以生存結(jié)局和生存時間為應(yīng)變量,可同時分析多種因素對于生存期長短的影響。Cox模型能分析帶有截尾生存時間的資料,且不要求估計資料的生存分布類型,因此在醫(yī)學(xué)界被***使用。Logistic回歸:又稱邏輯回歸模型,屬于廣義線性模型。邏輯回歸是一種用于解決二分類問題的分析方法,用于估計某種事物的可能性。相較于傳統(tǒng)線性模型,邏輯回歸模型以概率形式輸出結(jié)果,可控性高且結(jié)果可解釋性強。數(shù)據(jù)要求:樣本臨床信息或生物學(xué)特征(基因突變、基因表達等)樣本的隨訪數(shù)據(jù)(總生存期,生存狀態(tài))或樣本的分組情況下游分析:1.補充相關(guān)因素的已有相關(guān)研究2.解釋相關(guān)因素對研究課題的意義。 構(gòu)建新的臨床預(yù)測模型。云南數(shù)據(jù)庫建設(shè)數(shù)據(jù)科學(xué)服務(wù)
t-SNE(t分布隨機鄰域嵌入)是一種用于探索高維數(shù)據(jù)的非線性降維算法。它將多維數(shù)據(jù)映射到適合于人類觀察的兩個或多個維度。t-SNE非線性降維算法通過基于具有多個特征的數(shù)據(jù)點的相似性識別觀察到的簇來在數(shù)據(jù)中找到模式。另外t-SNE的輸出可以作為其他分類算法的輸入特征。因為t-SNE算法定義了數(shù)據(jù)的局部和全局結(jié)構(gòu)之間的軟邊界。t-SNE幾乎可用于所有高維數(shù)據(jù)集,廣泛應(yīng)用于圖像處理,自然語言處理和語音處理。在生物信息中可廣泛應(yīng)用于基因表達數(shù)據(jù)、基因甲基化數(shù)據(jù)、基因突變數(shù)據(jù)等,能夠直觀地對不同數(shù)據(jù)集進行比較?;驹韽姆椒ㄉ蟻碇v,t-SNE本質(zhì)上是基于流行學(xué)習(xí)(manifoldlearning)的降維算法,不同于傳統(tǒng)的PCA和MMD等方法,t-SNE在高維用normalizedGaussiankernel對數(shù)據(jù)點對進行相似性建模。相應(yīng)的,在低維用t分布對數(shù)據(jù)點對進行相似性(直觀上的距離)建模,然后用KL距離來拉近高維和低維空間中的距離分布。 湖北數(shù)據(jù)庫建設(shè)數(shù)據(jù)科學(xué)共同合作在分子生物、細胞生物、實驗動物、病理、臨床樣本方面已與長三角100余家企業(yè)形成良好合作關(guān)系。
棒棒糖圖是直觀顯示蛋白質(zhì)結(jié)構(gòu)上的突變點**簡單且有效的方式。許多致*基因具有比任何其他基因座更頻繁突變的優(yōu)先位點。這些位點被認(rèn)為是突變熱點,棒棒糖圖可以用于顯示突變熱點以及其他突變位點。并可以對比不同**/亞型的突變位點。
基本原理
將蛋白質(zhì)結(jié)構(gòu)根據(jù)氨基酸順序繪制為長條形,以不同色塊標(biāo)注不同結(jié)構(gòu)域,在基因突變導(dǎo)致氨基酸改變的位置標(biāo)注棒棒糖,并在棒棒糖圓球標(biāo)注位點的突變頻數(shù)以及突變位點。
數(shù)據(jù)要求
基因突變或者蛋白質(zhì)突變數(shù)據(jù)
下游分析
1、突變位點靶向藥物分析
2、驅(qū)動基因突變分析
GSEA基本原理從方法上來講,GSEA主要分為基因集進行排序、計算富集分?jǐn)?shù)(EnrichmentScore,ES)、估計富集分?jǐn)?shù)的***性水平并進行多重假設(shè)檢驗三個步驟。**步對輸入的所有基因集L進行排序,通常來說初始輸入的基因數(shù)據(jù)為表達矩陣,排序的過程相當(dāng)于特定兩組中(case-control、upper-lower等等)基因差異表達分析的過程。根據(jù)所有基因在兩組樣本的差異度量不同(共有六種差異度量,默認(rèn)是signal2noise,GSEA官網(wǎng)有提供公式,也可以選擇較為普遍的foldchange),對基因進行排序,并且Z-score標(biāo)準(zhǔn)化。第二步是GSEA的**步驟,通過分析預(yù)先定義基因集S在**步獲得的基因序列上的分布計算富集指數(shù)EnrichmentScore,并繪制分布趨勢圖Enrichmentplot。每個基因在基因集S的EnrichmentScore取決于這個基因是否屬于基因集S及其差異度量(如foldchange)。差異度量越大基因的EnrichmentScore權(quán)重越大,如果基因在基因集S中則EnrichmentScore取正,反則取負。將基因集L在基因集S里的所有基因的EnrichmentScore一個個加起來,就是Enrichmentplot上的EnrichmentScore趨勢,直到EnrichmentScore達到**值,就是基因集S**終的EnrichmentScore。第三步是為了檢驗第二部獲得結(jié)果的統(tǒng)計學(xué)意義。 云生物提供數(shù)據(jù)科學(xué)服務(wù)。
術(shù)語解讀:中位數(shù)Q2:二分之一分位數(shù)上四分位數(shù)Q1:序列由小到大排序后第(n+1)/4所在位置的數(shù)值下四分位數(shù)Q3:序列由小到大排序后第3(n+1)/4所在位置的數(shù)值**值:非異常范圍內(nèi)的**值,四分位距IQR=Q3-Q1,上限=Q3+最小值:非異常范圍內(nèi)的最小值,下限=數(shù)據(jù)要求:某一基因在各**及對應(yīng)的正常組織的表達數(shù)據(jù)。應(yīng)用示例1:(于2014年2月發(fā)表于Nature.,影響因子)文章研究了12種主要**類型的突變景觀和意義,它首先使用小提琴圖展示了12種**的突變頻率分布情況,然后查找確定具有***意義的突變基因。應(yīng)用示例2:(于2017年1月發(fā)表在NatCommun.,影響因子)文章研究了Pancancer建模預(yù)測體細胞突變對轉(zhuǎn)錄程序背景的特異性影響。研究人員基于開發(fā)的模型預(yù)測重要轉(zhuǎn)錄因子,然后使用預(yù)測出的突變轉(zhuǎn)錄因子的活性情況繪制泛*圖譜。 按照斯普林格學(xué)術(shù)規(guī)范化處理準(zhǔn)則提供文稿同行**投稿前意見評估。湖北數(shù)據(jù)科學(xué)服務(wù)
實驗室致病類病原微生物數(shù)據(jù)分析平臺。云南數(shù)據(jù)庫建設(shè)數(shù)據(jù)科學(xué)服務(wù)
Inmmune gene
免疫學(xué)研究是目前科研領(lǐng)域爭相研究的熱點,**免疫細胞浸潤是其中一種。**免疫細胞浸潤是指免疫細胞從血液中移向**組織發(fā)揮作用。我們從**組織中分離出浸潤免疫細胞含量,計算基因與浸潤免疫細胞含量的相關(guān)性,篩選出影響免疫浸潤的候選基因。
基本原理:
從基因矩陣數(shù)據(jù)中提取免疫細胞含量,生成免疫細胞含量矩陣;
計算目標(biāo)基因與浸潤免疫細胞含量的相關(guān)性,篩選與浸潤免疫細胞含量高度相關(guān)的基因。
術(shù)語解讀:
相關(guān)性系數(shù)(pearson,spearman, kendall)反應(yīng)兩個變量之間變化趨勢的方向以及程度。相關(guān)系數(shù)范圍為-1到+1。0表示兩個變量不相關(guān),正值表示正相關(guān),負值表示負相關(guān),值越大表示相關(guān)性越強。
數(shù)據(jù)要求:
**數(shù)據(jù)表達矩陣 云南數(shù)據(jù)庫建設(shè)數(shù)據(jù)科學(xué)服務(wù)