PPImodule蛋白質互作蛋白質-蛋白質相互作用(protein-proteininteraction,PPI)是指兩個或兩個以上的蛋白質分子通過非共價鍵形成蛋白質復合體(proteincomplex)的過程。PPImodule是指共表達蛋白模塊或蛋白質相互作用模塊。蛋白質相互作用形成人體復雜的蛋白質相互作用網絡,對蛋白質相互作用網絡進行聚類形成模塊從而幫助我們理解細胞的功能。我們一般使用PPImodule把基因列表跟蛋白相互作用網絡聯系起來。例如RNA-seq獲得的差異表達基因,看他們在蛋白相互作用網絡中,哪些基因處于同一module。基本原理:蛋白質在細胞中的功能取決于它與其他蛋白質、核酸和小分子相互作用關系,對蛋白質相互作用網絡進行聚類形成模塊,各個蛋白模塊發(fā)揮不同的功能,我們將基因列表重疊于模塊上,查找基因列表所在的功能模塊,從而發(fā)現基因列表中的基因可能發(fā)揮的細胞功能。我們通過PPI數據庫找到共表達蛋白中的module,然后從模塊中篩選出基因列表的產物蛋白,篩選出的結果就是基因列表***表達的PPImodule。 云生物數據分析需要多久?湖北算法還原與開發(fā)數據科學共同合作
術語解釋:互斥性(mutuallyexclusive):一組基因中只有一個在一種**中發(fā)生改變,這種現象被稱為互斥性。共現性(co-occurrence):不同途徑功能的基因突變可能發(fā)生在同一**中,這種現象被稱為共現性。數據要求:基因突變數據下游分析:對于存在共現性或互斥性的基因對/基因集基因集的功能分析基因集相關的生存分析基于基因集的潛在靶向藥物分析文獻一:Functionalgenomiclandscapeofacutemyeloidleukaemia急性髓性白血病的功能基因組圖(于2018年10月發(fā)表在Nature.,影響因子)文獻中使用DISCOVER40方法評估531例白血病患者中**常見的復發(fā)性突變的共現性或排他性,并用點圖展示。文獻二:ALPK1hotspotmutationasadriverofhumanspiradenomaandspiradenocarcinoma文獻中利用DISCOVER共現性質和互斥性分析工具對ALPK1和CYLD的互斥性進行了評價。 遼寧組學實驗數據科學生存曲線分隔,在展示基因表達水平對生存期的影響時找到分組。
sankey
?;鶊D(sankey)是一種數據流圖,每條邊**一條數據流,寬度**數據流的大小。一套數據集可能有多重屬性,每層屬性之間有交叉,就可以用這種圖來展示。一般應用場景:分組與基因為多對多關系,展示高頻突變基因所處的分組;miRNA和靶基因的關系;人群按性別、年齡、家族史等特征分組,展示不同分組得**的規(guī)律。
數據要求:
多個分組及其關系,包括且不限于基因表達、突變。
下游分析:
1. 補充展示部分的已有相關研究
2. 解釋展示部分對研究課題的意義
STEM基因表達趨勢分析基因調控網絡是一個連續(xù)且復雜的動態(tài)系統(tǒng)。當生物體按照一定順序發(fā)生變化或者受到外界環(huán)境刺激(如受到不同濃度的化學藥物誘導)時,基因表達變化也會呈現趨勢特征。趨勢分析就是發(fā)現基因表達的趨勢特征,將相同變化特征的基因集中在一種變化趨勢中,從而找到實驗變化過程中相當有有代表性的基因群。STEM(ShortTime-seriesExpressionMiner),中文名短時間序列表達挖掘器。該軟件主要用于分析短時間實驗數據,也可用于多組小樣本數據。推薦3至8組數據。一般可應用的研究方向有:多個時間點的時間序列數據,例如多個發(fā)育時期、處理后多個時間點取樣?;驹鞸TEM采用了一種新的聚類算法來分析時間序列基因表達趨勢。聚類算法首先選擇一組不同的、有代表性的時間表達模式(temporalexpressionprofiles)作為模型(modelprofiles)。模型是**于數據選擇的,并從理論上保證了所選擇的模型剖面具有代表性。然后,根據每個標準化過后的基因表達模式,分配給模型中相關系數比較高的時間表達模式。由于模型的選擇是**于數據的,因此該算法可以通過排列測試,確定哪些時間表達模式在統(tǒng)計意義上***富集基因。對每一個基因都分配時間表達模式完成后。 胰腺疾病預后相關長鏈非編碼RNA。
**初目的:對手上的**樣本(或病人)進行分型分析,期望找到不同的亞型,并對應不同的臨床特征??蓴U展應用到:所有樣本的亞型分析,用于樣本的特征分析。數據可用轉錄組、基因組、甲基化、蛋白質組等。輸入數據格式:一個數值矩陣,行是基因或者其他特征,列是樣本。本分析要求樣本數要多,有利于亞型的分析。參考文獻:(2)::本文利用室管膜瘤病人的甲基化數據,首先進行了tSNE分型,隨后又采用了新的方法spectralclustering進行分類分析,作者比較了兩種分類方法。使用spectralclustering的分類,鑒定了每一種**亞型的特異性表達模式。并且發(fā)現spectralclustering的分類和病人的臨床特征有關,從而提出一種新的室管膜瘤亞型,可用于臨床的篩選和檢測。 自有服務器機房,可隨時調用各計算平臺算力,且團隊成員有多年科研經歷。湖北診療軟件開發(fā)數據科學經驗豐富
構建新的臨床預測模型。湖北算法還原與開發(fā)數據科學共同合作
Inmmune gene
免疫學研究是目前科研領域爭相研究的熱點,**免疫細胞浸潤是其中一種。**免疫細胞浸潤是指免疫細胞從血液中移向**組織發(fā)揮作用。我們從**組織中分離出浸潤免疫細胞含量,計算基因與浸潤免疫細胞含量的相關性,篩選出影響免疫浸潤的候選基因。
基本原理:
從基因矩陣數據中提取免疫細胞含量,生成免疫細胞含量矩陣;
計算目標基因與浸潤免疫細胞含量的相關性,篩選與浸潤免疫細胞含量高度相關的基因。
術語解讀:
相關性系數(pearson,spearman, kendall)反應兩個變量之間變化趨勢的方向以及程度。相關系數范圍為-1到+1。0表示兩個變量不相關,正值表示正相關,負值表示負相關,值越大表示相關性越強。
數據要求:
**數據表達矩陣 湖北算法還原與開發(fā)數據科學共同合作