毕业设计Notes -- 1

来源:互联网 发布:unity3d 建筑模型素材 编辑:程序博客网 时间:2024/06/06 02:54

【03.03~03.09】


1,【cluster analysis 之后会有overlaps】


2,pom.xml文件中,【唯一标识】由 
[groupId] + [artifactId] + [version] 一起确定


3,Cytoscape API中 有三种类型的 CyTable <NetWork> / <Node> / <Edge>


4,Cytoscape 核心数据结构:网络-CyNetwork,表格-CyTable。
启动和监听事件的机制:CyEvent(final) && CyListener(interface)


【03.10~03.16】


5,Cluster Analysis Classification

*****************[非交叠式聚类算法]**********************
5-1 > 分析复合物检测算法MCODE
(MCODE-The Molecular Complex Detection Algorithm)
基于距离测定/种子-扩充方式的局部搜索方法,非层次聚类法


5>2 快速凝聚算法 FAG-EC
(Fast Agglomerate Algorithm - FAG-EC)是基于边聚类系数
(edge clustering  coefficients)的聚类算法
基于边聚集系数的快速凝聚式层次聚类算法


5>3 快速层次聚类算法  HC-PIN
(Fast Hierarchical Clustering Algorithm  -  HC-PIN)
基于边聚集值的快速层次凝聚式聚类算法


5>4 层次化交叠功能模块探测算法  OH-PIN
(Identification  of  Hierarchical  and  Overlapping 
Functional Modules - OH-PIN)
识别层交叠蛋白质功能模块的凝聚式层次算法


5>5 基于新型拓扑结构的聚类算法  IPCA
(Cluster  algorithm  Based  on  the  new 
topological structure - IPCA)
基于密度的交叠聚类算法


5>6 基于极大团凝聚式层次聚类算法  EAGLE
(agglomerative  hierarchical  clustering 
based  on maximal clique – EAGLE)
基于极大团扩展的凝聚式层次聚类算法,可识别交叠的功能模块




6,【SUID】Cytoscape中每个Cy- 组件都会有一个SUID,
不管是CyNetwork、CyNode、CyEdge之类。


7,CyNode 之间的距离是如何计算的?
若为带权值的边,则计算其weight。否则不用管


8,评估方法主要有三:

8>1,P-value 评估,评判蛋白质富集程度

8>2,OS(Pc,Kc)评估,表示:
聚类算法识别出的蛋白质复合物Pc(Predicted complexes)

已知蛋白质复合物Kc(Known complexes)的匹配程度OS
还要从算法的 特异性(Specificity,Sp) & 敏感度(Sensitivity,Sn)
Sp=TP/(TP+FP) Sn=TP/(TP+FN)
TP(True Positive)/FP(False Positive)/FN(False Negative)

8>3,C-Score ( 与8>2 评估作对比)
查准率 precision = tp / (tp+fp)
查全率 recall = tp / (tp+fn)
f-measure = 2*recall*precision / (recall+precision)
hint:tp 算法识别的复合物中含有某功能的蛋白质个数
fp 该复合物中所有蛋白质个数减去tp
fn 整个蛋白质网络中含有该功能的蛋白质个数减去tp


8>4,basic information
从基本信息上对蛋白质网络聚类算法进行评估
聚类结果各个簇的密度分布 以及尺寸规模分布


9,GO由三个相对独立的本体组成,包括
【生物过程(biological process, BP)】
【分子功能(molecular function, MF)】
【细胞成分(cellular component, CC)】

三个本体完整描述了基因产物的生物特征。GO的结构是一个有向无环图(directed acyclic graph, DAG),类似于树状图,GO短语的语义作为图中的节点,语义之间的关系作为图中的边。GO语义有两种相互关系,分别是is_a关系和part_of关系。GO数据库使用受控词和严格定义的概念关系,每一条GO短语可以看成是一条功能注释信息,每条功能注释都是对其祖先节点功能注释的进一步细化,注释到子孙节点的基因或蛋白质也必须具有其祖先节点的功能注释。


10 , P值(P value)就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。总之,P值越小,表明结果越显著。但是检验的结果究竟是“显著的”、“中度显著的”还是“高度显著的”需要我们自己根据P值的大小和实际问题来解决


在功能富集分析中,依旧用GO中的BP,MF,CC对算法进行评估。
P-value在一定程度上体现了识别的蛋白质复合物对某个功能的富集程度。
如果P-value越小,越接近于0,则说明蛋白质复合物能够
【随机出现这种功能的概率】就越低,可能更有生物学意义。


0 0
原创粉丝点击