사전적 정의
유전자 발현(遺傳子發現, 영어: gene expression)은 DNA를 구성하는 유전 정보, 즉 유전자에 의해 생물을 구성하는 다양한 단백질이 형성되는 과정이다.
DNA(Genotype) ---(Transcription)--> RNA --(Translation)--> Protein --> Phenotype
사람의 몸을 구성하는 세포들은 모두 같은 DNA를 가지지만, 각 세포들은 모두 서로 다릅니다.
이는 transcription pattern이 서로 다르기 때문에 세포의 기능과 생김새가 다른 것.
(transcriptomics 영역!)
Transcription and Translation
DNA와 RNA의 차이는
DNA: 정적 (chromosome 2개)
RNA: 동적 (상황따라 0~1M개)
Transcript form 이 여러개인 gene이 있을 수 있다. 이를 Transcript Isoforms이라고 부릅니다.
Different Transcription (or Expression) Pattern
각 cell들은 두 개의 DNA sequences를 가진다. (두 개의 chromosome)
각 gene들은 두 개의 복사본(copies)를 가진다. (어떤 gene들은 multiple하게 가지기도 함)
각 gene들은 여러 번 transcribed되고, gene의 RNA 분자들은 multiple copies를 가진다.
사람 세포(cell)의 약 20,000개의 gene들은 모두 다른 copies를 가진다.
Expression Index: RNA gene copies의 개수 정량화
-gene이 여러 RNA copies를 가지면 "expressed"(발현)되었다고 말한다.
-예를 들어, Gene 1이 환자1에게 12h에는 1021.5, 1day에는 35.9의 수치로 발현되었다.
즉, 'Gene 1이 1day보다는 12h에 더 많이 발현되었다'라고 표현할 수 있다.
즉, gene expression은 RNA가 얼마나 많냐 (quantitative하게 정량화한 수치) 지표
Genotype vs Phenotype
genotype은 유기체의 genetic 특성을 일컫고, phenotype은 physical한 특징을 일컫는다.
유전형과 표현형.
예를 들어, '파란 눈을 가진다'는 phenotype, '갈색 눈의 gene이 부족하다'는 genotype.
RNA microarray analysis
Gene microarray: exon 하나의 expression을 측정하는 건 모든 isoforms를 포함한다.
Exon microarray: gene의 모든 exon들의 expression 측정
Human transcriptome array: exon, exon-exon junction, 등
RNA-Seq Technology
RNA information 측정은 DNA information 측정과 동일합니다.
Using sequencing technology
DNA sequencing: cut -> amplifying -> sequencing -> align
RNA sequencing: cut -> conversion to DNA -> amplifying -> sequencing -> align
Using microarray technology
DNA microarray: cut -> amplifying -> hybridization -> scan
RNA microarray: cut -> conversion to DNA -> amplifying -> sequencing -> align
Sequencing Technology: Illumina Sequencing
Mapping: genome의 short sequences에서 original 위치 찾기
'어떤 유전자에서 나왔니? 찾기'
ALignment vs. mapping
Alignment는 두 sequences를 비교해서 sub-sequence의 위치를 찾을 때 선호
Mapping은 특화된 alignment 문제에 주로 사용.
Alignment는 높은 heterogeneity(이질성_서로다름), mapping은 높은 quality(품질)을 추정한다.
Expression: Calculation
-Counting the number of reads on a gene
-RPKM: reads per kilobase per million
- =[# of mapped reads]/[length of transcript in kilo base]/[million mapped reads]
- =[# of mapped reads]/([length of transcript]/1000)/([total reads]/10^6)
-FPKM: fragments per kilobase per million
-# of fragments instead of # of reads
-Considering partial mapping of reads
raw_data --(low-level analysis)-->expression data(matrix) --(high-level analysis)--> predict phenotypes
Summary of Gene Expression Data
