[CompBio] Lecture 01 - Introduction

다음 강의에 대한 정리입니다. MIT Computational Biology Fall 2018.

코스 전체 내용입니다.

CompBio-Table



이번 강의에서는 compbio 코스 전반적으로 다룰 내용과 기초적인 생물학 내용 (Central Dogma) 약간을 다룬다. Computational Biology라는 학문은 Biological domain의 문제를 Computational technique으로 해결하는 것이기 때문에, 두가지를 모두 잘 이해하는 것이 중요하다. 코스에서 다루는 내용은 분야로는 두 분야 모두 다루고, 깊이로는 기초와 심화를 모두 다룬다.

Why Computational Biology?

이 질문에 대한 답변을 정리해보면 다음과 같은 범주로 정리된다. (이외에도 각자 나름의 이유가 있을 수 있다.)

  1. Biological system은 기본적으로 digital system으로 볼 수 있다. DNA라는 digital code (A,C,G,T)에 의해 생체 정보가 저장되고, 복사되고, 처리되기 때문이다. 그래서 컴퓨터로 데이터를 처리하기 적합하다.
  2. DNA 이외에도 다양한 생물학적 요인들이 스위치에 의해 on/off로 조절되는 경우가 많다.
  3. ChIP-chip assay 같은 시퀀싱 기술의 발달로 인해 엄청나게 많은 데이터가 쏟아지고 있다.
  4. 대용량의 데이터를 처리할 수 있게 되었다. (기술과 computational power의 발달)
  5. 최적화 기법도 적용될 수 있다.
  6. 큰 데이터셋을 효율적인 시간과 메모리로 다룰 수 있다.
  7. Biological dataset은 noisy 하고, 이를 신호처리(computation)로 다룰 수 있다.
  8. biological feature의 regression 문제 등을 머신러닝을 사용하여 접근 가능하다.
  9. 데이터 사이에 단순 계산이 힘든, 고차원의 관계가 존재한다.
  10. 가설을 세우고 수치적으로 검증하기 용이하다.
  11. 시각화하기 좋다.
  12. 실험을 효율적으로 하게끔 도와준다.

CompBio-01-01 왼쪽에 나타난 염기서열들 중 유의미한 정보를 담고있는 부분은 가운데에 표시된 부분들이다. 이 부분들은 특정 패턴을 통해 생명정보를 갖고 있는데, 특히 Gene들은 ATG로 시작한다는 공통점을 갖고 있다. 그러나 ATG로만 찾기에는, gene의 시작점이 아닌 부분들도 많아서 (오른쪽), 이들을 걸러내기 위한 다양한 computational method가 필요하다.

Overview

코스 전반적으로 다룰 내용들에 대한 간략한 설명이다. 전반적인 내용은 6개 모듈로 이루어져 있다. 강의에서도 매우 빠르게 넘어갔으니, 그냥 이런게 있다 정도로 전체적인 짜임새만 보고 상세한 사항은 각 강의를 참고하는게 좋겠다. 나중에 완강하고나면 쭉 보면서 되새김질 해보자.

CompBio-01-02

Genomes과 gene regulation에 관여하는 각 요소의 리스트(왼쪽)와 Computational Biology에서 해결하고자 하는 분야를 모식도로 나타낸 것(오른쪽)이다.

CompBio-01-03

1,2,3 주차에 다루는 내용이다. 염기서열을 맞추는 문제를 Hidden Markov model같은 computational 기법을 이용해 해결한다.

CompBio-01-04

4,5 주차에 다루는 내용이다. 유전체 발현 데이터를 분석하여 clustering과 classification과 같은 task를 수행한다. unsupervised learning, supervised learning, read mapping 등의 computational 기법을 활용한다.

CompBio-01-05

6,7 주차에 다루는 내용이다. 후생유전학(epigenomics)와 gene regulation을 다루며, 이전 주차들에서 사용했던 computational 기법 (HMM 등)을 다시 사용한다.

CompBio-01-06

8,9,10,11 주차에 다루는 내용이다. 유전체를 분석하여 종의 분화와 진화계통을 추정한다.

Module VI (12,13,14,15 주차)는 최근 연구 동향들을 다룬다.

Biology primer

분자생물학에 대한 간략한 설명이다. Central dogma를 기준으로 나누어 설명한다.

DNA

CompBio-01-07 우선은 Central dogma의 요소중 DNA에 대해 보자. 우선 DNA의 구조는 아래와 같다.

CompBio-01-08 DNA(DeoxyriboNeucleic Acid)는 뉴클레오타이드 중합체 두가닥의 이중나선 구조로 이루어져있다. 각각의 단위체는 인산염(당-인산) + 핵염기 로 구성되어 있으며 핵염기의 종류 (아데닌(A),티민(T),구아닌(G),시토신(C))에 따라 단위체의 종류가 달라진다. 오른쪽 그림처럼 개별적인 사슬은 인산염들의 결합으로 골격을 이루고 있고, 두 가닥의 사슬은 핵염기들의 상보적인 수소결합으로 이중나선을 만든다. 사슬간 수소결합은 구조적인 이유로 인해 A-T, G-C 쌍끼리만 가능하다. 오른쪽 그림의 사슬 안쪽을 보면 알 수 있듯, A-T 쌍은 두개의 수소결합, G-C 쌍은 세개의 수소결합으로 이루어져있다. 이로인해 G-C 쌍이 A-T 쌍보다 강한 결합력을 보인다.

CompBio-01-09 DNA는 이중나선 자체로 존재하지 않고, Histone 단백질을 둘러싸며 응집되어 있다. 이로인해 원래 길이보다 5만분의 1만큼 압축된 길이로 존재한다. 이러한 구조에서는 DNA가 발현되지 않는 부분이 상당히 많다. 히스톤 단백질 뭉치 안쪽에 위치한 DNA는 숨겨져있어서 발현되기 어렵기 때문에, 히스톤 단백질의 따라 유전체 발현정보가 달라지기도 한다. 이처럼 DNA 염기서열 이외의 요인으로 인해 유전 정보가 달라지는 경우를 후생유전학적(epigenetic) 변이라고 한다. Epigenetic modification에는 Methyl기가 히스톤단백질 또는 DNA에 달라붙는 methylation도 포함된다.

RNA

CompBio-01-10 다음은 DNA에서 transcription을 통해 나오는 RNA에 관한 내용이다. CompBio-01-11

  • 구조 : 우선 구조적으로는 RNA(RiboNeucleic Acid)와 DNA(DeoxyriboNeucleic Acid) 차이는, 당에 산소원자가 하나 있고없고의 차이다. RNA는 주로 이중나선이 아닌, single strand 구조를 갖는다. 그리고 DNA의 티민(T) 대신 우라실(U)을 핵염기로 갖는다. 따라서 A-T 쌍 대신 A-U 쌍이 존재한다.
  • 기능 : 유전정보를 안정적으로 장기 보관하는 DNA와 달리 RNA는 DNA의 정보를 단기적으로 사용하기위한 일종의 카피본이라고 보면 된다. 네가지 유형의 RNA가 있는데, 각기 역할이 다르다.
    • mRNA : 유전정보를 전달(messenger)하는 RNA다.
    • tRNA : codon과 아미노산을 매칭하는 RNA다.
    • rRNA : Ribosom을 구성하는 RNA다.
    • snRNA : splicing reaction에 관여하는 RNA다.

CompBio-01-12 DNA로부터 유전정보를 복사해 RNA를 만드는 과정을 Transcription 이라 한다(왼쪽). 오른쪽 그림에 나타나듯, 모든 RNA가 gene의 정보를 담고있진 않ㄴ다. DNA에서 복제된 직후의 RNA를 pre-mRNA라 하는데, pre-mRNA에는 잘려나갈 intron과 보존될 exon이 함께 존재한다. exon만을 남기고 나머지 intron을 잘라내고 난 후에 mRNA가 된다. splicing 되는 exon의 조합(alternative splicing)에 따라 같은 유전자여도 추후에 발현되는 단백질이 달라진다.

Protein

CompBio-01-13 단백질은 실질적으로 세포를 구성하거나 신호전달을 하는 등 거의 모든 기능을 실제로 수행하는 분자이다.

CompBio-01-14 단백질은 각기 다른 화학적 성질을 가진 20여종의 아미노산들의 조합으로 이루어져있다. 아미노산사이의 펩티드 결합으로 긴 사슬 형태(일차 구조, primary structure)로 만들어진다. 따라서 단백질을 폴리펩티드(polypeptide) 또는 펩티드 사슬(peptide chain) 이라고 부르기도 한다. 펩티드 사슬이 길어지면 곁사슬(side chain)끼리의 전하에 따른 상호작용으로 인해 접힘현상으로 규칙적인 구조(이차 구조, secondary structure)를 이루게 된다. 일반적인 접힘 형태는 $\alpha$ 나선(helix)과 $\beta$ 병풍(sheet) 두가지다. 이 두가지 구조는 폴리펩티드 주사슬의 N-H기와 C=O기 사이의 수소결합에 의해서 생성되기 때문에 매우 자주 나타나는 단백질의 구조이다. $\alpha$ 나선(helix), $\beta$ 병풍(sheet), 임의로 감긴 코일, 고리, 그리고 N-와 C-말단 사이에 만들어진 접힘 등에 의해 단백질의 3차원적인 구조(삼차 구조, tertiary structure)가 만들어진다. 한개 이상의 폴리펩티드 사슬이 복합체를 이루는 구조를 단백질의 사차 구조, quaternary structure라고 한다. $n$개의 아미노산으로 이루어진 단백질은 $20^n$가지 존재할 수 있지만, 수많은 단백질 중 극소수만이 안정적인 구조와 기능을 갖는다.

Summary

CompBio-01-15 Central dogma에서 각각 요소들의 역할을 정리하면 왼쪽 그림과 같다. Protein은 DNA나 RAN에 영향(gene regulation)을 미치기도 한다. 물론 이러한 영향은 해당 단백질이나 다른 단백질의 발현에도 영향을 미친다.