의료공학 BioEngineering

[의료공학/BioInformatics] Genome Sequencing

Genome sequencing은 4가지 단계의 반복이다.
cut, amplifying, sequencing, aligning

1. Cutting: Restriction Endonuclease

Restriction Endonuclease는 DNA를 특정 site에서 자른다.

2. Amplifying: Bacterial Artificial Chromosome(BAC)

큰 genome sequencing을 위해 사용(인간 게놈 같은)

genome을 150-350kbp 길이로 자르고, 박테리아에 삽입하고, 키운다.

Amplifying: Polymer Chain Reaction(PCR)

BAC는 in vivo(in life)에 많은 작업이 필요해 작은 작업에는 안 어울린다.
PCR는 dna를 in vitro에 수만개로 복사하여 DNA복사한다. (exponential amplification)

PCR은 특수 단백질, 알고리즘을 (primers) 필요로 한다.
그 amplified region을 구체화하기 위해서.

3. Sequencing

Sequencing Technology: Sanger Sequencing

chain-termination method라고도 불리며
DNA replication 동안 이루어진다.
1977년부터 대략 40년동안 가장 대중적으로 이용되었다.

The classical chain-termination method requires a single-stranded DNA template, a DNA primer, a DNA polymerase, normal deoxynucleotide triphosphates (dNTPs), and modified di-deoxynucleotide triphosphates (ddNTPs), the latter of which terminate DNA strand elongation.


아래 그림은 각 다른 길이의 DNA fragment이다. 그리고 짙은 밴드는 dideoxtnucleotide( ddATP, ddGTP, ddCTP, or ddTTP)통합 후 chain termination의 결과다.



Sequencing Technology: Next Generation Sequencing


Sanger Sequencing은 느리고 비싸다는 단점이 있다. 이를 First generation sequencing이라고 부른다.

이후 등장한 것이 NGS.
대용량 염기서열 분석법이라고도 불리며,

대량의 병렬 데이터 생산으로 유전체의 염기서열을 고속으로 분석하는 기술. 하나의 유전체를 수많은 조각으로 분해하여 각 조각을 동시에 읽은 후 전산기술을 이용하여 조합함으로써 방대한 유전체 정보를 빠르게 해독하는 방법이다.

-Second generation sequencing: massive parallel sequencing of DNA molecules.

Illumina sequencing (sequencing by synthesis)
하나씩 붙여가며 사진 찍기. 느리다느 단점. 주로 영상처리.
대량의 병렬 데이터 생산. 각 조각을 동시에 읽어 조합.

-Third generation sequencing: single cell, single molecule, extremely long length. 쭉 흘려 통과시키면서 저항값을 구한다. 주로 신호처리.



4. Assembly

reconstructing the original long sequence
local alignment를 찾는다.
두 sequence의 similarity를 찾는다.




De Novo Assembly vs. Sequence Mapping 비교

De novo or ab initio assembly
-short sequence 읽으면서 genome construct.
-백지부터 시작. 아무것도 참조하지 않음.
-그래서 computational power가 크게 필요하다.

<->

Sequence mapping(resequencing)
-하루이틀. 훨씬 빠르다.
-computational power가 훨씬 라이트하다.
-많은 유기체의 게놈구조를 알기 때문에 요즘엔 주로 쓴다.