《生物信息学》——李霞;;生信概念

挑战:寻找新的处理海量数据和复杂性的方法。

生信:
说了什么:

研究对象:       以核酸、蛋白质等生物大分子数据库
研究手段方法:数学、信息学、计算机科学
研究工具:       计算机硬件、软件、计算机网络

研究目的:       对浩如烟海的原始数据进行获取、加工、存储、分配、分析、管理、注释解释,使之成为具有明确生物意义的生物信息。

并通过生物信息的查询、搜索、比较、分析,从中获取基因编码、基因调控、核酸和pro结构功能及其相互关系等理性知识。
在大量信息和知识的基础上探索生命起源、生物进化以及细胞、器官和个体的发生、发育、病变、衰亡等生命科学中重大问题,弄清它们的基本规律和时空联系。

是什么:

科学角度:  研究生物(生物相关的)系统中“信息内容”和“信息流向”的 综合系统科学。
工具角度:  有关生物(医药)研究开发所必须的工具。
用处:         临床诊断、检验、用药参考建议

怎么实现的:

在Linux系统上(操作各种数据处理软件),利用prel or Python编程语言处理数据,存储在mysql or mongoDB
各种测序方法、一二三代测序原理、测序仪、操作流程

各种比对软件,及其参数设置、软件命令操作、输出结果解读(有用信息提取),
各种格式的文件流程:下机数据格式.fasta/fastq --> 比对后格式.bam/sam --> 变异数据格式.vcf --> 注释文件.bed/gff/gtf

各种注释软件:
各种可视化工具:

数据挖掘、模式识别方法:
临床诊断、用药参考建议:

时间: 2024-10-06 16:32:51

《生物信息学》——李霞;;生信概念的相关文章

生信概念之

1.contig:A contig (from contiguous) is a set of overlapping DNA segments that together represent a consensus region of DNA 从reads拼接出来的更长的序列. 2.k-mer:k-mers refer to all the possible subsequences (of length k) from a read obtained through DNA Sequenci

003生信人必练

gtf 文件 序列的编号 注释信息的来源 注释信息的类型 开始与结束的位置  得分  序列的方向  起始编码的位置,仅对CDS有效  注释信息描述     11 ensembl_havana gene 5422111 5423206   "."表示为空.  +表示正义链, -反义链 , ? 表示未知.  有效值为0.1.2  键+值     11      ensembl_havana  gene    5422111 5423206 .       +       .       g

生信基础概念之unique reads VS multi-mapping reads

unique reads:在参考组上只有一个匹配点 multi-mapping reads:在参考组上有多个匹配点 下面是tophat的一个结果案例: Reads: Input : 26140314 Mapped : 25159791 (96.2% of input) of these: 1027691 ( 4.1%) have multiple alignments (1832 have >20) 96.2% overall read mapping rate. the quantity of

生信算法实践

最近在搞16S,发现了一个实践算法的最佳机会. 见文章: A Bayesian taxonomic classification method for 16S rRNA gene sequences with improved species-level accuracy. 文章利用了贝叶斯模型,调用了blast和muscle来对OTU进行taxonomy assignment. 可以看一下源代码,非常简单. Bayesian-based LCA taxonomic classification

生信入门-爱课程上的华中农业大学

1.生物大分子序列分析 2.主要技术 3.生物信息学的应用 4.应用2 原文地址:https://www.cnblogs.com/BlueBlueSea/p/9610313.html

生信-序列比较dp[未完成]

来自:生物信息学-陈铭第二版的一个例题. 题目: 目前的代码,运行不正确,关键就是不知道怎么回溯啊,回溯怎么标记呢? #include <iostream> #include<vector> using namespace std; vector<char> s1,t1;//在回溯的时候使用 string s,t;//输入两个字符串 int dp[30][30]; int maxs(int x,int y,int z){ if(x>=y&&x>

生信学习-二代测序知乎专栏总结[转]

转自:https://zhuanlan.zhihu.com/p/20702684 1.基本概念 flowcell 是指Illumina测序时,测序反应发生的位置,1个flowcell含有8条lane lane 每一个flowcell上都有8条泳道,用于测序反应,可以添加试剂,洗脱等等 tile 每一次测序荧光扫描的最小单位 reads 指测序的结果,1条序列一般称为1条reads bp base pair 碱基对,用于衡量序列长度 双端测序 只一条序列可能比较长如500bp,我们可以两端每端各测

生信研究内容

目前生物信息学 的研究情况来看,国际上公认的生物信息学的研究内容,大致包括以下几个方面: 1. 生物信息的收集.存储.管理与提供.包括建立国际基本生物信息库和生物 信息传输的国际联网系统:建立生物信息数据质量的评估与检测系统:生物信息的在线服务:生物信息可视化和专家系统. 2. 基因组序列信息的提取和分析.包括基因的发现与鉴定,如利用国际EST  数据库 (dbEST) 和各自实验室测定的相应数据,经过大规模 并行计算发现新基因和新SNPs以及各种功能位点:基因组中非编码区的信息结构分析,提出理

主动降噪技术(ANC)的前生今世--概念历史

一 概念 假如使用一句通俗的语言来概述ANC的原理的话,那就是:通过发出与噪声相位相反,频率.振幅相同的声波与噪声干涉实现相位抵消. 使用比较正式的语言来解释就是:动降噪通过降噪系统产生与外界噪音相等的反向声波,将噪音中和,从而实现降噪的效果.下图是一个ANC的降噪原理图: 根据麦克风的位置,可以把这个主动降噪技术分成三类:* 前馈主动降噪技术 Feed forward,简称FF:取样麦克风在耳机外边,通过取样麦克风获取噪声,能够获取外部全部的噪声,然后做反向,常见的场景就是入耳式耳机,没有被动