달력

1

« 2020/1 »

  •  
  •  
  •  
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  •  

NGS 서열을 이용한 게놈 사이즈 예측

1. Genome size의 다양성

진화적 관계와 Genome size와는 상관관계가 없다. 아래 그림을 참고. ( C value paradox )

 

 Protist, Plant, Amphibian  같은 종들이 대표적인 예

2. Genome size의 예측성

  A. de novo Genome Assembly를 위한 초기 단계에 실험 디자인 참고

  B. Genome들 간의 특성 및 구조 유추 가능 (heterozygous 정도, Genome size)

3. Genome size 예측 방법

   A. 실험적인 기술

     - Feulgen densitometry (유전체 크기 예측)
     - flow cytometry (유전체 크기 예측)
     - C0t Analysis (DNA reassociation kinetics) : 반복서열 측정 및 분류
     - moleculer markers or DNA microarrays : heterozygosity 정도 측정

   B. 분석적인 기술 (K-mer frequency)
 
    - Mixed-Poisson Model and EM algorithm : 2003년 Michael S. Waterman 그룹
    (문제점, 데이터가 완벽해야 하고, 다른 많은 한계를 가짐, 또한 Tool제공을 하지 않았음)
    - GSP (genome size prediction)
    Bayesian estimation (BE) and EM iteration : 2009년 Shan & Zheng
    (일부 염기 서열 오류를 허용)

4. K-mer 분석 방법

유전체 크기 및 특성(heterozygous 정도)를 확인하기 위해 k-mer를 Count를 하는 방법을 기반으로 하여 유전체 크기 및 특성 추정 할 수 있다.

유전체 크기 예측 방법은 Base Coverage = Total base Number / Genome Size가 k-mer Coverage = Total K-mer Number / Genome Size 임을 이용하여 Genome Size = Total k-mer Number / k-mer Coverage로 유전체 크기 예측한다.

유전체 특성을 추정하는 방법은 아래 그림에서의 (A)와 (B)같이 k-mer frequency peak의 양상에 따라 highly heterozygosity의 정도를 추정할 수 있다.

 

K-mer depth distribution

(A) 그림에 해당하는 경우는 k-mer frequency peak가 두 곳에서 발생 한 것으로 확인이 되면, 앞의 k-mer frequency peak의 k-mer depth가 2배가 되는 부분에서 또 하나의 k-mer frequency peak가 나타나는 것을 확인 할 수 있다. 이러한 경우 앞의 k-mer frequency peak는 heterozygosity를 보이는 k-mer들로 판단 할 수 있고, 뒤의 k-mer frequency peak는 실제 genome size에 해당하는 Peak로 판단 할 수 있다.

(B) 그림에 해당하는 경우는 k-mer frequency peak가 한곳에서 발생한 것으로 미루어 적은 heterozygosity를 가지고 있는 genome으로 판단된다.

 

Posted by 레이징불

댓글을 달아 주세요

  1. 1466860028 2016.06.25 22:07  댓글주소  수정/삭제  댓글쓰기

    잘 읽고 가여~

  2. 1467591757 2016.07.04 09:22  댓글주소  수정/삭제  댓글쓰기

    좋은하루되세요

2015. 6. 29. 15:25

하디-바인베르크의 평형 잡설/science2015. 6. 29. 15:25

하디-바인베르크의 법칙[ Hardy-Weinberg law ]

한 종의 생물군이 세대를 거듭하더라도 원래의 유전자 구성비율이 변하지 않는다는 법칙.
하디-바인베르크의 법칙

집단 유전학을 공부하면서 고등학교 때 멘델의 유전학에서 배웠으나 기억이 가물가물 하던 하디-바인베크르의 평형(방정식)에 대해서 정리를 했다.

하디-바인베르크의 평형에서 두개의 대립 형질 A와 a가 각각 상대빈도 p와 q((p=0.75 q=0.25)로 나타나고 교배가 무작위로 되며 정자의 p비율만큼이 A대립형질을 운반하고 난자의 p 비율만큼이 또한 A 대립 형질을 운반합니다. 각 수정란의 난자와 정자가 모두 대립형질 A를 운반할 가능성은 p* p 즉 p2이 됩니다. 마찬가지로 결합하는 배우자가 모두 대립형질 a를 운반할 가능성은 q2이 됩니다. Aa 수정란이 형성될 수 있는 방법은 A정자가 a난자와 결합하거나 a정자가 A난자와 결합할 경우가 되지요. 두 사건이 일어날 총 가능성은 pq+pq즉 2pq가 되는 것입니다. 따라서 A의 빈도 pq와 a의 빈도 pq는 절반씩으로 나타내기 위해 1/2을 곱하는 것입니다.

개체균내에서 세 종류의 유전형의 상대빈도는 각 사건의 개체당 가능성은 같습니다. p2, 2pq 그리고 q2는 각각 AA, Aa, aa 유전형의 빈도가 될 것입니다.

예) 만일 개체군에서 알비노증과 같은 한 열성형질의 분포율을 안다면, 우리는 이 개체군내의 어떤 쌍이 한면의 알비노 아이를 가질 확률을 예측할 수 있다. 사람의 정상적 피부와 눈색깔을 나타내는 대립유전자인 A는 알비노증을 나타내는 a에 대해 우성이다. 유전자형 aa는 대략 20000명 중 한명꼴로 나타난다. 하디-바인베르크 방정식에 따르면 유전자형 aa의 빈도는 q2이므로 q2은 1/20000이고 이 형질에 대한 대립유전자(a)의 빈도 q는 1/20000의 제곱근인 1/141이다. 우성 대립유전자 A의 빈도 p=1-q이므로 그러므로 이형접합성 Aa는 개체균에 다음과 같은 빈도로 나타날 것이다.
20000명의 1.4%는 280명이므로 대략 20000명당 280명이 알비노증에 대한 하나의 열성 대립유전자를 갖게 된다. 그러나 알비노증을 나타내는경우는 한명 뿐이다. 그러므로, 양친의 집안 어느 한쪽에서라도 이형질이 나타나지 않았다면, 어떤 쌍이 알비노 아이를 갖게 될 기회는 매우 희박하다.

하디바인베르크의 법칙이 조건
1) 교배는 완전히 무작위적이어야 한다.
2) 돌연변이는 있을 수 없다.
3) 이입과 이출이 있을 수 없다.
4) 대립유전자는 멘델의 제1법칙에 따라 분리되어야 한다.
5) 기대값은 개체군과 표본집단의 크기가 대단히 클 때에 한해서만 정확하다(이러한 경우는 전혀없다)
6) 개체군에서 선택이 작용하지 않는다.


[예시]
하디-바인베르크의 법칙을 따르는 어느 평형집단에서 1만명 중의 1명이 PKU 환자라고 가정한다면 보인자의 비율은 얼마이겠는가?(정상 유전자의 빈도를 p, 질병 유전자의 빈도를 q라고 정하고 계산하라)

 정상 유전자를 A, 질병 유전자를 a라고 한다면 유전자형이 AA이면 정상, Aa는 보인자, aa는 환자일 것입니다. 하디-바인베르크의 방정식으로 나타내면 p2 + 2pq + q2 = 1 이고 여기서 p2은 정상, 2pq는 보인자, q2는 환자의 빈도입니다. 환자의 발생빈도가 1만분의 1이므로 환자(aa)의 유전자빈도는 q2= 0.0001이 될 것이며 따라서 질병유전자(q)빈도 q=0.01입니다. p+q=1이므로 p=0.99이며 보인자의 빈도는 2pq=2×0.99×0.01=0.0198 이 됩니다. 결국 약 2% 정도가 보인자라는 것을 알 수 있습니다.

Posted by 레이징불

댓글을 달아 주세요

2015. 6. 22. 10:26

프로모터 영역 잡설/science2015. 6. 22. 10:26

Promoter regions

Promoter cartoon

Promoter : core promoter, proximal promoter, and distal promoter.

프로모터(promoter)란 유전자(gene)가 언제 어디서 어느 정도 발현할 것인가를 결정하는 염기 서열로서, 지령 기능을 갖는 서열이라고 할 수 있다.  유전자가 발현하기 위해서는 유전자의 앞쪽에 존재하는 프로모터 영역에 다양한 단백질이 결합하여야 한다. 진핵세포의 경우에는 그 중에서도 RNA 중합효소(RNA polymerase)라고 하는 단백질이 코어 프로모터 영역에 붙는 과정이 반드시 필요하므로 일반적으로 진핵세포의 프로모터는 그림에서와 같이 또는 간략히 프로모터라고 ‘Polymerase II' Pol-II프로모터 라고 불린다.

Pol-II 프로모터는 DNA에서 RNA로 서열이 복사되는 '전사'가 시작되는 '전사개시지점(TSS, transcription start site)을 중심으로 그 위치에 따라 그림과 같이 여러 영역으로 구분할 수 있다. 각 영역에는 전사를 조절하는 데 관여하는 단백질 들이 결합하는 부위 (TF, transcription factor)가 모여 있으며 그 분포와 조합은 매우 다양하고 복잡하다.

 

[그림]Polymerase II 프로모터의 구성

 

1. The core promoter region : RNA 중합효소의 결합 부위(바인딩 사이트), TATA  박스 그리고 전사개시 부위(transcription start site)를 일컬어서 얘기한다.

2. The proximal promoter : 코어 프로모터의 upstream에 있는 proximal 프로모터는 많은 regulatory 요소를 포함하고 있다. proximal 프로모터는 TSS로부터 upstream의 약 250bp에서 발견되며, 일반적인 전사 인자 결합하는 부위이다.

3. The distal promoter : 유전자로부터 가정 멀리 떨어져 있는 프로모터 영역으로,  전사 인자 바인딩 사이트 뿐만 아니라 조절인자를 포함하고 있다. 

Posted by 레이징불

댓글을 달아 주세요

2015. 6. 1. 14:19

Genetic Disorder 잡설/science2015. 6. 1. 14:19

 

Genetic Disorder

 

Introduction

유전병이란 유전자 이상에 의해 생기는 질환이다. 보다 정확히 정의하면, 체세포 내에 존재하는 유전자 이상이 표현형으로 나타나며, 같은 유전자 이상이 생식세포(정자, 난자)에도 존재하기 때문에 그 표현형이 자손에게도 전달되는 질환을 통칭하는 것이다. 이러한 유전자 이상이 일어나는데는 몇 가지 원인들이 존재한다. 우선 DNA가 복제될 때, 자연적으로 생기는 오류가 있으며, 둘째로는 여러 가지 화학물질 및 환경적 요인들에 의해서 일어날 수 있는 가능성이 있다. 위와 같은 원인들로 인해 체세포에서만 이상이 생길 경우에는 자식에게 그 질환이 유전되지 않지만, 부모의 생식세포에서 이상이 생기거나 배발생 단계에서 이상이 생길 경우에는 자손에게 유전되는 것이다. 최근에 발표된 인간게놈프로젝트 연구 결과에 의하면 사람의 세포내에는 30,000 - 40,000개의 유전자가 존재한다고 한다. 이런 결과에 따르면 인간 유전병의 종류는 무수히 많은 종류가 있을 것으로 추정할 수 있으며, 현재까지 밝혀진 유전병의 종류들 외에도 많은 종류의 유전병들이 존재하고 아직까지 연구되지 않은 유전병들이 훨씬 더 많다는 것을 시사해준다.

 

Classification of Genetic disorder

유전질환이 유발되는 유전자 이상은 크게 단일 유전자 돌연변이, 염색체 이상, 환경적 요인과 상호작용을 하는 다발성 돌연변이로 분류될 수 있다. 돌연변이가 일어날 수 있는 원인은 여러 가지가 존재한다. 세포가 분열될 때 세포 자체내 오류로 인해서 일어날 수 있는 경우가 첫째 원인이다. 또한 자연적인 UV, 음식물에 들어있는 여러 돌연변이 유발물질, 환경적 요인 등에 의해서 돌연변이가 유발될 수 있다. 물론 돌연변이가 생긴다고 모두 표현형으로 나타나는 것은 아니며, 유전자상에서 그 유전자의 기능을 바꿀 수 있는 형태로 유발돼야 질환에 걸리게 되는 것이다. 돌연변이 양상에 따른 분류는 아래와 같다.

 

 1. Single Gene Disorder (단일유전자 이상) : 하나의 유전자 상의 돌연변이에 의해서 유발되는 질환으로써 일반적으로 멘델의 법칙을 따르며, 몇 가지 유형들이 존재한다. 이러한 종류의 돌연변이들은 일반적인 염색체 검사로는 알 수 없으며, 여러 가지 분자생물학적 방법들을 통해서 확인할 수 있다.

  1) Point Mutation: DNA 염기 서열중에서 하나의 염기서열이                                바뀌는 경우

i )  Missense Mutation - DNA 염기 하나가 다른 종류의 염기로 바뀜으로써 그 위치에서 만들어질 아미노산이 다른 아미노산으로 바뀌는 돌연변이 

예) 대동맥판상부협착증 - elastin유전자의 변이로 유발

     낭포성섬유증 - CFTR 유전자상의 돌연변이로 인해.

     파브리병 - ß-galactosidase A 유전자상의 돌연변이

                      로 인해 유발됨

 

 

ii) Nonsense Mutation - DNA 염기 하나가 다른 종류의    염기로 바뀜으로써 그 위치에 종결코돈이 형성되는    돌연변이

 

예) 뒤시엔느 근위영양증 - dystrophin 유전자상의 돌연

                                         변이로 인해 유발됨,

     레트 증후군 - MecP2 유전자상의 돌연변이로 인해                                          유발됨  

 

 

 

       

 

Missense Mutation

 

 

 

                                 Nonsense mutation

 

2) 염기의 수를 바꾸는 돌연변이 : 정상적인 DNA 염기서열에           다른 염기가 끼어들어 가거나 기존의 염기 중 일부가           결실됨으로써 단백질을 만드는 틀이 바뀌는 경우

        i) insertion - 하나 이상의 염기가 기존의 염기들 사이에 끼            어 들어가는 경우

        예) 마르판 증후군 - FBN1 유전자상의 변이로 인해 유발됨              고셔병 - glucocerebrosidase 유전자상의 돌연변이로                            인해 유발됨

        ii) deletion - 하나 이상의 염기가 결실된 경우  

         예) X-연관무감마글로불린혈증 - BTK유전자의 돌연변이                     로 인해 유발됨,

             선천성 부신과형성증 - StAR 유전자상의 돌연변이로                      인해 유발됨

이러한 돌연변이 양상은 거의 모든 유전자 상에서 일어날 수 있으며, 실제로 단일유전자 이상에 의해 유발되는 유전질환인 경우에도 환자 또는 가계에 따라서 돌연변이 양상이 다르게 나타날 수 있다. 따라서 같은 유전질환을 앓고 있는 환자일지라도 돌연변이 양상은 다를 수 있기 때문에, 환자 가계의 다른 구성원들을 대상으로 보인자(돌연변이된 유전자를 갖고 있지만 표현형으로 나타나지 않는 사람) 또는 질환의 유,무를 알아보기 위해서는 환자에 대한 돌연변이 양상 조사가 필수적이다.

 

 

 2. Chromosome Disorder (염색체 숫자 및 구조이상) : 사람은 22개의 상염색체 쌍과 X, Y 염색체를 갖고 있으며, 이런 염색체의 숫자 증감 또는 염색체 구조 이상에 의해서 유발되는 경우가 있다. 염색체 구조 이상이라는 것은 세포학적 또는 세포유적학적으로 확인할 수 있는 결실, 역위, 전좌 등이 존재하는 경우를 말한다. 여기에는 대개 여러 유전자들이 동시에 결실되거나 중복됨으로써 질환이 유발되는 경우가 많다. 이 경우에도 많은 유전질환들이 존재하지만 일부만 예를 들어본다면 아래와 같다.

  1) 광학현미경으로 검사 가능한 경우

    i) 상염색체 숫자 이상 : 염색체의 수가 많거나 적어짐으로써, 그 염색체에 존재하는 유 전자 양 또한 바뀌게 되는데 이로 인하여 유발되는 질환   

        예) 다운증후군 - 21번 염색체가 3개인 경우,

             Trisomy 18 - 18번 염색체가 3개인 경우,

             Trisomy 13 - 13번 염색체가 3개인 경우,

             묘성증후군 - 5번 염색체의 일부가 결실된 경우,

             

     ii) 성염색의 숫자 이상 : 성 염색체의 수가 많거나 적어짐으로써 유발되는 질환 

         예) 터너증후군 - X 염색체가 1개만 있는 여성,

              클라인펠터증후군 - XXY 염색체를 갖고 있는 경우,

              야콥증후군 - XYY 염색체를 갖고 있는 남성,

 

  2) FISH 등의 분자생물학적 분석방법들을 이용하여 검사 가능한 경우

      i) 염색체 구조 이상 : 염색체 숫자 이상 정도는 아니지만  인접해있는 여러 유전자들이 결손 되거나 중복됨으로써 유발되는 질환. 이러한 경우는 대개 1-2Mb 정도 결실이 일어나기 때문에 일반적인 염색체 검사 방법만으로는  검사하기가 불가능하다.

         예) 윌리암스증후군 - 7번 염색체의 일부가 결실,  

              프레더-윌리증후군 - 15번 염색체의 일부가 결실

       ii) 염색체 구조 취약 : 염색체 자체가 부서지기 쉬운 경우 이며, 일반적인 염색체 검사 방법으로도 검사가 가능 하지만, 특정 시약을 처리하게 되면 그 빈도가 높아짐

           예) 프레자일 X증후군 - X 염색체의 특정부위가 잘리기 쉬운 경우

 

 In the Down Syndrome karyotype below, the chromosomes have been arranged in their pairs. Note the extra copy of chromosome 21.

 

 

 3.  Multifactorial Disorder (다인자성이상) : 하나의 유전자 또는 몇 개의 유전자에 의해서 질환이 유발되기보다는 여러 가지 유전자 및 환경적 요인들에 의해서 유발되는 질환들을 말한다. 이러한 경우는 어느정도 유전적 성향이 관찰될 수는 있으나, 반드시 유전 때문이라고 단정짓기는 어렵다.

  예) 1. 선천성심장질환 - 심장과 같은 기관의 결함을 유발하 는데는 하나의 유전자 또는 몇 개 의 유전자가 관여한다기 보다는 많은 수의 유전자들과 여러 환경적 요인들이 관여한다 고 볼 수 있다.

        2. 암 - 암의 경우도 약간의 유전적 경향 또는 암과 연관된 유전자들이 몇 가지 보           고된 바는 있지만, 암의 발생 원인을 본다면 역시 여러 가지 환경적 요인들(UV,           화학물질, 식생활 등)에 의해서 세포주기를 조절하는 유전자상에 이상이 생기기           때문에 발병한다 고 볼 수 있다.

 

 

Posted by 레이징불

댓글을 달아 주세요

최근 차세대염기서열분석(NGS) 기술 발전과 향후 연구 방향
저자 이수민 (국립과학수사연구원)
   
 

 

 

  
 
요약문
차세대염기서열분석법 (Next-generation sequencing; Massive parallel sequencing) 은 유전체를 무수히 많은 조각으로 나눈 뒤 각각의 염기서열을 조합하여 유전체를 해독하는 분석 방법으로, 2004년 최초로 상용화된 후 현재까지 그 성능이 비약적으로 발전해왔다. Illu-mina 등 주요 NGS 플랫폼들은 각자 고유한 특성을 지니고 있으며, 플랫폼 및 시약 등의 성능을 경쟁적으로 향상시키고 있다. NGS 기술의 발달과 분석 비용의 하락으로 인해 다양한 연구 분야에서 NGS가 보편적으로 활용되고 있으며, 기초 연구 목적 외에도 의료계 및 산업계에서 NGS 기법은 활발하게 사용될 것이다. NGS 방법의 한계를 극복할 대안으로 단분자 염기서열 분석법이 개발되고 있으며, 현재는 초기 개발 단계지만 가까운 시일 내에 기술적 향상이 일어날 것이라 예측된다.
키워드: Next-generation sequencing, NGS, massive parallel sequencing, Third-generation sequencing, Single-molecule DNA sequencing


1. 서론
2. 차세대염기서열분석법(Next-Generation Sequencing) 의 발전 동향
   2.1 플랫폼의 변화
   2.2 케미스트리의 변화
   2.3 데이터 보관 및 처리법의 변화
3. NGS를 이용한 최신 연구 동향
   3.1 Resequencing
   3.2 de novo assembly
   3.3 Transcriptome 분석 (RNA-Seq)
   3.4 ChIP-Seq
   3.5 생명공학, 합성생물학에서 NGS의 응용
4. 단일분자염기서열분석법 (“Third-generation Sequencing”) 
5. 결론


1. 서론

Next-generation sequencing (NGS), 또는 Second-generation sequencing이라는 표현으로 더욱 잘 알려진 차세대 염기서열분석법 (이하 NGS) 은 Massive parallel sequencing을 일컫는 말로, 한국어로는 ‘대용량 염기서열 분석법’, ‘대규모 병렬형 염기서열 분석법’ 등으로 번역된다. NGS 분석법의 기본 발상은 컴퓨터 공학에서 한 작업을 동시에 수행하는 것을 뜻하는 병렬 컴퓨팅 (Massively parallel processing) 과 유사한데, 하나의 유전체를 무수히 많은 조각으로 분해하여 각 조각을 동시에 읽어낸 뒤, 이렇게 얻은 데이터를 생물 정보학적 기법을 이용하여 조합함으로써 방대한 유전체 정보를 빠르게 해독하고자 하기 위함이다. 이러한 NGS의 기본 개념은 1992년 시드니 브레너 등에 의해 제시되었지만, 기술적 한계 등으로 인하여 2004년에야 최초로 상용화될 수 있었다 [1, 2]. 그러나 2000년대 중반 이후 광학, 전자, 화학 등 세부 분석 기술과 컴퓨팅 파워가 비약적으로 향상되면서 NGS 플랫폼도 급속도로 진화하였다.  

최초의 염기서열 분석법인 생어 시퀀싱에 비해 다양한 장점을 갖고 있는 NGS 기술의 발전으로 인하여 유전체 분석에 소요되는 비용은 해가 갈수록 감소하고 있다. 미국의 NHGRI (Na-tional Human Genome Research Institute) 는 2004년 “1,000 달러 지놈 ($1,000 Genome)” 을 목표로 유전체 분석 관련 프로젝트에 연구비를 투자하기 시작했다 [3]. 그 결과, 2014년 7월 발표된 유전체 시퀀싱 비용은 약 4,500달러 수준으로 감소하였으며, 인간 유전체의 경우는 그보다 더 낮은 비용으로 분석할 수 있게 되었다. 유전체 분석 비용이 하락하면서 인간을 비롯한 다양한 생명체의 전장유전체 분석이 본격적으로 시작되었으며, 또한 인간 유전체의 다양성을 파악하기 위한 다양한 연구 프로젝트들이 수행되고 있다. 인간 유전체의 변이를 연구하고자 하는 HapMap과 1000 Ge-nome Project, ENCODE와 modENCODE 등이 그 예이다. 

이러한 연구 추세에 따라 NGS는 앞으로 생명과학 및 의과학의 다양한 분야에서 본격적으로 활용될 것이라 예상된다. 현재 약 25억 달러의 가치로 평가되는 세계 NGS 마켓은 2020년에는 87억 달러 규모까지 성장할 것이라 예측되고 있다 [4]. 이러한 세계적 추세에 발맞추어 한국에서도 농촌진흥청, 농림축산식품부, 미래창조과학부 등이 공동으로 주관하는 “포스트게놈 다부처 유전체사업”을 통해 2014년부터 2021년까지 총 5,788억 원을 투자, 밀레니엄 농생명 자원 유전체 해독사업, 농림축산식품 바이오 정보 고도화 사업, 국제 협력 사업 등을 수행할 계획이다.

본 보고서에서는 차세대 염기서열분석법의 최신 기술 발전 동향을 소개하고, NGS 기법을 이용한 연구 동향을 간략하게 짚어보고자 한다. 또한 주목 받고 있는 “3세대 염기서열 분석법” 에 대해 살펴보며 향후 염기서열 분석법의 발전 방향에 대해 논의하고자 한다.


2. 차세대염기서열분석법(Next-Generation Sequencing) 의 발전 동향

2.1 플랫폼의 변화

현재 상용화 되어 있는 NGS 분석 장비의 기본적인 원리는 서로 비슷하지만, 각 과정에서 사용하는 화학 반응 및 염기서열 검출 원리 등 세부 기술에 따라 고유의 특성 및 장단점을 지니고 있다. 최초로 상용화된 NGS 플랫폼인 ‘454’ 가 2004년 출시된 후로 현재까지 다양한 NGS 분석 플랫폼이 출시되고 또한 진화하였다.

upload image 
표 1. 최근 5년간 주요 NGS 회사의 플랫폼 변화

이 중 가장 널리 사용되는 것은 Illumina 사의 플랫폼으로, GenBank에 등록된 염기서열의 90% 가량이 Illumina의 플랫폼으로 생성된 데이터일 정도로 NGS 분야에서 광범위하게 사용되고 있다. 기술 컨설팅 회사인 HTStec에서 2012년 발표한 보고서에 따르면, 조사 결과에서는 Illumina의 HiSeq 2000/1000을 사용한다고 답변한 응답자가 전체의 39%로 (복수응답) 가장 높은 비율을 차지했으며, 그 외에도 Roche의 454 GS FLX+ (35%), Illumina MiSeq (31%), Thermo Fisher사의 Ion Torrent PGM (28%), Illumina Genome Analyser IIx (26%), Illumina HiSeq 2500/1500 (20%), Life Technology 사의 ABI SOLiD 2000 (12%), Roche 454 GS Junior (12%) 등이 사용되고 있다 [5]. Pacific Biosciences RS (5%), Intelligent BioSystems/Azco MAX-Seq (1%) 등의 점유율은 낮은 편이다. 

2014년 5월 발간된 국가연구시설장비진흥센터의 자료에 따르면, 한국도 세계적 추세와 비슷하게 Illumina의 플랫폼을 가장 많이 사용하고 있는 것으로 밝혀졌다. 2014년 4월 기준으로 High Perfomance급 장비는 Illumina 플랫폼 (HiSeq, Genome Analyzer 2X) 이 53대로 전체의 70.7%를 차지하는 것으로 나타났다. Benchtop급 장비는 Thermo Fisher (Life Technologies) 사의 Ion Torrent가 23대로 전체의 45.1%를 차지하고 있으며, Illumina의 MiSeq이 18대 (35.3%) 로 그 뒤를 이었다 [6]. 
Illumina의 기존 플랫폼들이 이미 NGS 시장의 큰 비중을 차지하며 널리 사용되고 있지만, Illumina는 이에 안주하지 않고 다양한 규격의 플랫폼을 지속적으로 선보임으로써 보다 공격적으로 시장에 진출하고 있다는 평가를 받는다. Illumina는 2014년 1월, 새로운 플랫폼인 NextSeq500과 HiSeq X Ten을 발표하였다 [7]. 

(1) NextSeq500 - 최초의 하이브리드형 NGS 플랫폼
NextSeq500은 기존의 Illumina 플랫폼인 HiSeq과 MiSeq의 장점을 모두 갖춘, 다시 말해 high-throughput의 성능을 가지면서 소규모 실험실에서도 사용 가능한 desktop sequencer의 기능을 수행하는 것을 목표로 제작된 기계이다. NextSeq500의 가장 큰 장점은 한 대의 기계로 High-Output과 Mid-Output라는 두 종류의 키트를 번갈아 사용할 수 있다는 것이다. High-Output Kit는 약 하루 정도의 run time으로 최대 400M의 read를 갖는데, 인간 유전체 하나를 30x coverage로 분석할 수 있으며, 9종의 Exome과 10종의 Transcriptome 분석이 가능하다. Mid-Output Kit는 최대 130M read로 3종의 exome, 6종의 enrichment panel과 96개의 amplicon panel을 분석할 수 있다. 따라서 용도에 따라 whole-genome sequencing과 de novo assembly부터 소규모의 타겟 유전자 분석까지 하나의 장비로 해결할 수 있다. 

기존의 Illumina 장비가 4-Dye system을 사용하는 것과 달리, NextSeq500 은 2-Dye system을 사용한다. 기존의 Illumina SBS 케미스트리는 4종류의 염기마다 서로 다른 형광을 사용하지만, NextSeq500 은 C(Cytosine) 은 빨강, T(Tyrosine) 은 초록, A(Ademine)는 두 색깔의 혼합, 그리고 G(Guanine)는 형광이 없는 형태로 표지하여 맵핑한다. 사용하는 형광의 갯수를 절반으로 줄임으로써 기계가 검출하고 처리해야 할 이미지의 갯수 또한 절반으로 줄일 수 있으며, 따라서 광학 장비에 소요되는 원가를 절감할 수 있다.  

(2) HiSeq X Ten – 인간 유전체의 대규모 분석을 위한 플랫폼
HiSeq X Ten은 인간 전장유전체의 대규모 분석을 위해 특수하게 제작된 플랫폼이다. 이 장비는 3일간의 작동으로 약 1.8 테라바이트(TB) 분량의 유전체 데이터를 해독할 수 있는데, 이는 약 16명의 인간 전장 유전체에 해당하는 양이다. 이는 HiSeq X Ten 을 이용하면 연간 18000명 가량의 전장 유전체를 30x coverage로 분석할 수 있다는 뜻이다. HiSeq X Ten은 현재 인간의 전장 유전체 분석만 가능하며, 대규모 유전체 분석 기관에 특화된 장비로 최초 주문 시 최소 10대의 기계를 주문해야 한다. 2014년 3분기 실적 발표에서 Illumina는 Broad Institute 등 15개의 대형 유전체 연구소에서 총 164대의 HiSeq X Ten을 도입하였다고 밝혔다 [8]. 국내에서도 마크로젠이 출시 당시 우선공급계약 체결로 10대를 주문했음을 발표한 바 있다. HiSeq X Ten의 상용화로 인해 현재 4천달러 수준인 인간 유전체 분석 비용을 천 달러 이하로 떨어뜨릴 수 있으리라 기대하고 있으며, 인간 유전체 연구 역시 가속도가 붙을 전망이다.

upload image
표 2. Illumina 플랫폼과 키트에 따른 사양 비교 (모든 항목은 Lead length의 최대값 기준).

(3) 진단장비로서의 NGS 플랫폼
유전체 검사를 통한 임상 의학에 사용될 NGS 플랫폼 경쟁에서도 역시 Illumina는 선두를 달리고 있다. 2013년 11월, 미국 FDA는 Illumina의 MiSeqDx 플랫폼을 NGS를 이용한 최초의 진단 장비로 승인했다 [9]. 이 날 승인을 받은 장비는 MiSeqDx와 Universal Kit reagents, 그리고 낭성섬유증 (Cystic fibrosis) 을 진단하는 두 가지 실험 기법인 “MiSeqDx Cystic Fibrosis 139-Variant Assay” 와 “MiSeqDx Cystic Fibrosis Clinical Sequencing Assay” 이다. 이들 키트들은 낭성섬유증에 중요한 역할을 한다고 알려진 유전자인 CFTR (Cystic Fibrosis Transmembrane con-ductance Regulator 의 시퀀싱 및 유전자 변이를 분석한다. Illumina의 뒤를 이어 Thermo Fisher (Life Technologies) 사는 2014년 9월 Ion PGM Dx System을 미국 FDA의 Class II 의학 장비로 등재하였음을 발표하였다. 

2.2 케미스트리의 변화

Illumina에서 2014년 11월부터 판매하기 시작한 HiSeq Rapid v2 Reagent Kit를 사용하면 rapid run mode에서 HiSeq2500의 lead length가 기존의 2x150 bp에서 2x250 bp 로 증가하며, 60시간의 작동 시간 동안 약 300 Gb의 데이터를 얻을 수 있게 된다 [10]. 이러한 성능 향상으로 de novo assembly나 metagenomics에 더욱 적합한 규격을 갖추게 되었다. 역시나 11월 출시로 예정된 HiSeq X HD v2 Reagent Kit에서는 TruSeq DNA PCR-free sample preparation kit를 지원함으로써 시퀀싱에 필요한 라이브러리 제작 소요 시간을 단축시켰을 뿐만 아니라, PCR 증폭 과정을 생략함으로써 PCR로 인한 라이브러리 편중 현상을 감소시킴으로써 유전체 변이 검출의 민감도를 향상시켰다. 

Thermo Fisher는 2014년 3분기에 새로운 DNA polymerase인 Hi-QTM 을 출시했다 [11]. Ion PGM용으로는 이미 출시되었으며 Ion Proton 용으로 2015년 상반기에 출시 예정인 이 효소는 In-del (DNA 내 염기 삽입 또는 결실) 에러율을 최소화하기 위해 제작되었다. Thermo Fisher는 공식 발표에서 Hi-QTM 를 사용하였을 때 S.aureus 유전체의 indel 에러율이 94%, E.coli의 에러율이 80% 감소하였으며, 2,300개의 target PCR amplicon-based resequencing panel을 이용했을 때 indel 에러율이 43% 감소하였다고 보고하였다. 

2.3 유전체 데이터 보관과 처리법의 변화

NGS를 이용한 유전체 분석의 걸림돌 중 하나는 분석 과정에서 생성되는 대용량의 유전체 데이터를 효율적으로 저장하는 방법의 문제이다. 미국의 Broad Institute나 중국의 BGI 등의 대규모 유전체 연구소에서 하루에 생성되는 데이터의 양은 수 백 테라바이트 급에 달하며, 최근 미 국립 암센터 (National Cancer Institute) 는 현재 저장된 2.6 페타바이트 (petabyte) 의 암 유전체 정보를 클라우드로 복사하는데 1,900만 달러를 지출할 것을 발표한 바 있다 [12]. NGS 분석이 대중화되면서 개별 연구실에서도 NGS를 이용한 분석을 수행할 수 있게 되었으나, 각 실험실에서 NGS 데이터를 저장하고 분석하는 데 필요한 컴퓨팅 파워까지 갖추기는 어렵다. 또한 텍스트로 제공되는 NGS의 실험 결과를 생물 정보학을 공부하지 않은 일반 연구자들이 분석하고 그 정확도를 판단하기 위해서는 정확한 분석 소프트웨어의 활용이 필수적이다.

이러한 문제들을 해결하기 위하여 NGS 기술 발달과 더불어 유전체 데이터를 클라우드에 저장하여 분석하는 서비스를 제공하는 기업들이 등장했는데, DNANexus, Globus Genomics, Tute Genomics, Seven Bridges, NextCode 등이 대표적인 예이다. 국내 기업인 KT도 2012년 Ge-nomeCloud를 선보인 이후 현재까지 서비스를 제공하고 있다. 대부분의 서비스에서 클라우드 저장 용량 및 클러스터 컴퓨팅, 간단한 분석 도구 등을 사용하여 분석하는 기능을 제공한다. 대표적인 IT 기업인 구글도 최근 유전체 분석 분야에 뛰어들었다. 구글은 2014년 3월 Google genomics 프로젝트 (https://cloud.google.com/genomics/) 를 시작하며 유전체 분석에 필요한 다양한 API를 공개하기 시작한 것에 이어, 10월에는 테라바이트당 월 22달러의 비용의 Genomics Storage 서비스를 제공하겠다고 밝혔다 [12]. 인간 전장유전체를 30x coverage로 분석했을 때 생성되는 데이터의 양은 약 100Gb 정도로, 따라서 이는 한 사람의 유전체 정보를 년간 25달러에 구글 클라우드에 보관할 수 있다는 뜻이다. 

유전체 클라우드 서비스의 가격은 앞으로 계속 하락할 것이라 예상되며, 따라서 연구실에 별도의 컴퓨팅 시설을 마련하지 않고 업체에서 제공하는 클라우드 서비스를 이용하는 연구자들의 비율은 점차 늘어날 것이라 예상된다. 또한 이러한 클라우드 서비스는 데이터의 보관 기능과 저장한 NGS 데이터를 분석할 수 있는 도구들을 함께 제공하는 경우가 대부분으로, 이러한 서비스를 효율적으로 이용함으로써 생명 정보학을 전공하지 않은 연구자들도 큰 진입장벽 없이 유전체 분석을 할 수 있게 될 것이다. 폭발적으로 증가하고 있는 NGS 사용자들이 어떤 서비스를 선택하느냐에 따라, 각 서비스의 향방이 크게 갈릴 것이라 예상된다.


3. NGS를 이용한 최신 연구 동향

NGS는 매우 다양한 분야에서 응용되고 있다. Nature Review Genetics 등의 주요 유전학 저널에서는 NGS의 다양한 응용 방안에 대한 기획 리뷰를 지속적으로 싣고 있다.
본 보고서에서는 NGS를 이용한 연구 동향을 분석 기법에 따라 분류한 뒤, 각 기법에 해당하는 세부 활용 방안에 대해 간략하게 소개하고자 한다. 

3.1 Resequencing

Resequencing은 이미 레퍼런스 유전체가 완성된 생물종의 다양한 유전체를 분석하고 그 서열을 레퍼런스와 비교함으로써 특정 유전체 내 SNP, splicing variant 등의 변이를 발굴하고자 할 때 주로 쓰인다. 질병 유전자 등 유전체의 특정 부위만을 분석하여 비교하는 Targeted resequenc-ing도 이에 포함되며, NGS가 가장 널리 활용되고 있는 분야이기도 하다. 엑솜 시퀀싱, 유전자를 이용한 진단 검사 의학, Genome-wide association studies (GWAS) 등으로 응용된다. 

- Whole exome sequencing (WES)
단백질을 코딩하고 있는 부분을 총망라하는 개념인 엑솜 (Exome) 은 전체 인간 유전체의 2% 정도 밖에 되지 않지만, 현재까지 알려진 질병 관련 유전자들의 85% 가량이 엑솜에 위치한다고 알려져 있다 [13]. 따라서 질병 관련 유전자 발굴 및 진단 검사에는 빠르고 효율적이면서 저비용의 분석이 가능한 엑솜 시퀀싱을 주로 활용한다. 엑솜만을 시퀀싱하기 위해서는 유전체 전체에서 엑솜 부분만을 가려내야 하는데, 엑솜에 해당하는 bait probe를 샘플에 섞어주는 solution-based capture나 probe를 칩에 붙여서 추출해내는 array-based capture법, PCR을 이용한 방법 등이 있다. Agilent, Illumina, Roche/NimbleGen 등의 주요 회사에서 다양한 엑솜 캡처용 제품을 출시하고 있다. 엑솜 시퀀싱의 주된 한계점은 바로 이 라이브러리 제작 단계인데, 엑솜 내 GC 함량의 차이 등으로 인하여 capture probe와 DNA 조각 간의 결합력의 차이가 발생하는 등 라이브러리의 편중화가 일어날 가능성이 있기 때문이다. 

- 분자진단검사, 임상의학
기존의 생어 시퀀싱법으로는 분석 시간 및 비용의 문제로 특정 질환에 특이적인 소수의 유전자 검사만이 수행되었고 따라서 정확도가 낮았지만, NGS의 발전으로 인하여 하나의 샘플에서 다양한 질병 관련 유전자들을 동시에 분석할 수 있으므로, 유전체 분석을 통한 검사 및 분자 진단이 본격적으로 시작될 것이라 예측되고 있다.

앞서 소개한 대로 현재 미 FDA의 승인을 받은 NGS 진단검사 방법은 Illumina의 낭성섬유증 분석 키트가 유일하지만, 빠른 시일 안에 다양한 질환의 분석 패널이 추가로 개발되어 FDA의 승인을 받을 것이라 예상된다. Illumina는 2014년 7월 분자 진단과 (in vitro diagnostics) 맞춤 의학에 특화된 컨설팅 회사인 Myraqa를 인수한 데 이어, 2014년 8월에는 MiSeqDx 플랫폼을 이용하여 다양한 암 관련 유전자들을 분석하는 패널을 AstraZeneca, Janssen Biotech, Inc., Sanofi 등의 제약 회사들과 공동으로 개발하고 있음을 발표하였다 [14]. 이러한 assay들이 다양하게 개발되고 진단 장비로 승인을 받게 되면 현재 주목 받고 있는 맞춤 의학 (companion diagnostics) 시장이 본격적으로 형성될 것이라 생각된다. 

최근 희귀 유전 질환을 앓는 환자들을 대상으로 수행한 clinical exome sequencing (CES) 에 대한 연구가 잇달아 발표되고 있다. 2014년 발표된 연구에서는 유전 질환을 앓고 있다고 추정되는 814명의 환자의 엑솜을 분석함으로써 그 중 26% 에게 정확한 진단을 내릴 수 있었음을 밝혔다. 이 때 환자의 유전체만을 분석하는 proband-CES보다 환자와 그 부모의 유전체를 모두 분석함으로써 de novo variants와 compound heterozygous variants trio-CES의 성공률이 더 높다는 것도 보고하였다 [15]. 
NGS는 임상 의학에서도 다양하게 활용될 수 있다. 한 예로 장기 이식 환자의 혈액에서 장기 제공자의 유전체와 일치하는 cell-free DNA가 검출되는지의 여부를 NGS로 확인한 사례가 발표되었다 [16]. 또한 임산부의 혈액에도 태아의 cell-free DNA가 발견되는데, 이를 이용하여 태아의 비침투 산전 검사 (Non-invasive prenatal diagnoses) 를 수행한 연구가 발표되었다 [17]. 질병을 일으키는 대장균 등 다양한 세균들과 자궁경부암을 일으키는 HPV (Human Papilloma Virus) 등 바이러스의 체내 존재 여부 및 종 식별을 NGS로 빠르게 분석할 수 있으며, 특정 세균의 항생제 내성 여부와 그 변화 추이를 파악할 수 있다. 

- Mapping-by-sequencing 법을 이용한 Forward genetic screening
전통적인 forward genetic screening 은 표준 개체와 돌연변이를 지속적으로 교배하며 유전자 마커를 기준으로 맵핑해야 했으므로 오랜 시간이 소요되었다. 그러나 NGS 분석 비용이 감소한 현재는 NGS를 이용하여 돌연변이체 (또는 backcross한 개체) 의 전장유전체를 분석하고 표준 유전체와 직접 비교함으로써 분석 시간을 단축할 수 있다 [18]. 전장유전체 분석 대신 WES, RAD-Seq (Restriction-site-associated DNA-sequencing), RNA-Seq 등을 이용하면 NGS에 소요되는 비용을 절감할 수 있다. 이러한 전략은 미생물의 계대 배양을 반복했을 때 생물이 환경에 적응하면서 생기는 유전체 변이를 분석하는 등의 experimental evolution 연구에도 사용된다. 

- GWAS (Genome-Wide Association Study)
GWAS란 각 개체의 유전체를 해독하여 비교, 분석함으로써 특정 질병과 연관된 유전적 요인을 찾고자 하는 연구이다. 1000 Genomes, HapMap Project 등을 통하여 구축된 dbSNP (http://www.ncbi.nlm.nih.gov/snp/) 에는 2014년 10월 현재 (Human build 142) 1억 개 가량의 인간 SNP 정보가 등록되어 있는데, 이러한 정보를 바탕으로 특정 질환을 앓고 있는 환자와 그렇지 않은 사람의 유전체를 해독하고 SNP의 차이를 분석하여 환자 집단에서 차이를 보이는 SNP와 그에 해당하는 유전자를 추려냄으로써 질환과 연관된 유전자를 발굴해내는 것이 통상적인 GWAS의 연구 방법이다. SNP 외에도 CNV (Copy-Number Variation) 이나 Indel, SV (structural Variation) 등의 변이도 연구 대상에 포함된다. Nature Genetics 등 주요 유전학 저널에는 GWAS를 이용한 연구가 빈번하게 게재되고 있으며, 이러한 연구 결과들은 NHGRI에서 발표하는 “GWAS catalog” 에서 파악할 수 있다 [19]. 

- 집단유전학 
집단유전학에서 allele frequency 또는 polymorphism을 분석하는 연구에도 역시 NGS는 유용하게 사용된다. 집단유전학에서는 분석에 사용하는 유전체의 갯수를 늘리는 것이 무엇보다도 중요하므로, NGS를 이용한 전장유전체 분석 비용에 특히 민감하다. 최근 발표된 Pool-Seq은 유전체의 read 수를 늘리는 효과를 가져옴으로써 분석 비용을 감소시킴과 동시에 분석한 유전체 집단의 polymorphism을 빠르게 분석하고자 하는 목적으로 고안되었다 [20]. 그 외에도 sequenc-ing depth가 낮은 데이터의 불확실성을 예측하고 통계적으로 처리하고자 하는 목적으로 제작된 프로그램들이 발표되고 있다.

- 미생물의 종 식별 및 metagenomics
동, 식물에 비해 미생물의 유전체는 상대적으로 크기가 작기 때문에 유전체 해독이 상당히 진행되었다. 현재 미생물학계에서는 단일 생물종의 유전체 해독 연구를 넘어서서, 특정 환경에서 수집한 샘플에 함유된 유전체를 분석함으로써 각 환경의 미생물 군집을 파악하고자 하는 meta-genomics 연구가 활발히 수행되고 있다 [21]. 한 샘플에 섞여있는 비슷한 유전체들을 효과적으로 구분하기 위해 16S rRNA나 18S rRNA 등의 종 식별 마커를 사용하는데, 이러한 마커들은 생명 공학 등에 다양하게 응용된다. 또한 이러한 연구 방법은 최근 주목 받고 있는 장내 미생물의 분포 및 관련된 임상 연구에도 널리 사용된다. 

- Single-cell genomics
NGS 분석 기술이 발달함에 따라 미량의 DNA 시료의 전장유전체도 NGS로 성공적으로 분석할 수 있게 되었다. 이에 따라 단일 세포의 유전체를 분석하고자 하는 single-cell genomics 연구 역시 활력을 띠게 되었다. 세포 분열 시 DNA가 복제를 거듭하는 과정에서 돌연변이가 발생할 가능성이 항상 있기 때문에, 한 개체에 있는 세포라 하더라도 각각의 유전체에는 미묘한 변이 (somatic variation) 가 존재한다. 또한 이러한 돌연변이는 질환의 원인으로 작용할 수도 있는데, 최근 발표된 연구들에 따르면 정상 조직과 질환을 앓고 있는 조직의 유전체를 비교했을 때 변이율이 이론상 계산 결과보다 상당히 높다는 사실이 보고되었다. Single cell genomics를 통해 각 단일 세포의 유전체 서열을 분석함으로써 cell lineage tree를 구축할 수 있는데, 이러한 정보는 발달 생물학이나 암 생물학 연구에 유용하다 [22].

Single-cell genomics의 기술적 한계는 단일 세포의 정확한 분리와 미량 유전체의 증폭이다. 인간의 세포는 개당 약 7 pg 가량의 DNA를 갖고 있는데, 따라서 현재의 NGS 분석을 위해서는 유전체 증폭 (Whole genome amplification) 등의 과정이 필수적이다. NGS 플랫폼의 검출 감도가 향상되어 라이브러리 제작에 필요한 DNA의 양이 감소하는 등의 기술 발전과 더불어 single-cell genomics 연구는 더욱 활력을 얻을 것이라 예측된다.

- Forensic DNA profiling
법 과학에서 사용하는 유전자 감식법 (DNA profiling) 은 유전체의 특정 부분에서 나타나는 반복서열 (Short-tandem repeat; STR) 의 조합이 개인마다 고유의 패턴을 갖고 있으며, 그 형질이 유전된다는 원리에 기반한다. 현재는 Multiplex PCR과 생어 시퀀싱법으로 유전체 내 특정 좌위의 반복 패턴을 분석하고 있으나, NGS의 발전과 분석 비용의 하락으로 인해 상염색체 및 성염색체, 미토콘드리아 DNA 등 인체의 모든 유전 정보를 한 번의 실험으로 동시에 분석할 수 있는 NGS의 장점이 부각되고 있다. 더불어 SNP (Single-nucleotide polymorphism) 이나 표현형 관련 마커 유전자를 이용하여 개인 식별력을 높이고자 하는 최근의 연구 추세에 NGS가 필수적으로 사용된다. 한 예로 현재의 분석 방법으로는 구별이 불가능한 일란성 쌍둥이의 유전형을 NGS로 구별한 연구가 2011년 발표된 바 있다 [23]. 이 분야에서는 앞으로 현재의 개인 식별 시스템과 호환 가능한 분석 패널 및 키트 개발에 관련된 연구가 뒤따를 것이라 예상된다. 

3.2 de novo assembly 

de novo assembly는 아직 전체 염기서열이 해독되지 않은 생명체의 염기서열을 NGS로 분석하여 맵핑함으로써 genome 또는 transcriptome을 구축하는 작업을 말한다. NGS 기술의 발전과 이를 뒷받침하는 생물 정보학의 발달로 주요 모델 생물에 이어 다양한 생물자원의 유전체 해독이 가능하게 되었다. 2010년 Illumina를 이용한 판다 유전체의 시퀀싱이 완료된 것을 시작으로, 2011년에는 NGS만으로 인간 유전체를 해독한 연구 결과가 발표되었다 [24]. 이러한 연구에서 제시한 시퀀싱 전략에 따라 수많은 동물 유전체들이 해독되었으며, 현재는 1만종 이상의 척추 동물 유전체를 해독하자는 목표로 Genome 10K 프로젝트 (https://genome10k.soe.ucsc.edu/) 가 추진되고 있다. NGS를 이용한 de novo assembly가 본격적으로 시작되기 전 이미 BAC 클론을 이용한 생어 시퀀싱으로 해독되고 있던 유전체들도 이제까지 얻은 결과와 NGS를 이용한 분석 결과를 조합함으로써 유전체 해독에 가속도를 붙일 수 있었다. 

그러나 NGS 만으로 해독된 유전체 정보는 생어 시퀀싱만으로 제작된 유전체에 비해 전체적인 완성도가 낮다는 한계를 갖고 있다. 특히 식물 유전체 같이 내부의 반복 서열이 다수 존재하는 유전체의 경우는 NGS를 이용한 de novo assembly가 어렵다는 단점이 있다. 이제까지 발표된 식물 유전체는 lead length가 상대적으로 긴 454 플랫폼을 주로 이용하거나 454와 Illumina를 혼용하여 분석하곤 하였으나, 주로 배수체인 작물 유전체나 유전체의 크기가 매우 거대한 경우에는 lead length나 분석 비용의 문제가 여전히 존재한다 [25]. 그러나 현재 Illumina 플랫폼의 read length도 점차 길어지는 추세이며, 앞으로 더욱 긴 lead length를 갖는 플랫폼 및 시약이 개발될 것이라 전망되므로, NGS를 이용하여 분석한 전장유전체의 완성도도 점차 향상될 것이라 예측된다. 

3.3 Transcriptome sequencing

2000년대 초까지 Microarray로 대표되었던 유전자 발현체 (mRNA) 분석법은 NGS 기술의 발달로 인하여 현재 대부분 RNA-Seq으로 대체되었다. Microarray로는 특정 mRNA의 증가 또는 감소량 정도만 파악할 수 있었지만, NGS로 mRNA의 염기 서열을 직접 해독하게 됨으로써 (RNA profiling) 그 전까지 불가능했던 RNA editing이나 allele-specific expression 등의 관찰이 가능하게 되었다. mRNA 뿐만 아니라 small RNA 등의 non-coding RNA의 분석도 가능하며, 엑손/인트론을 구별하기 위한 수단으로도 사용된다. 또한 염기서열이 완전히 해독되지 않았거나 transcript들의 서열 정보가 불충분한 생물에서도 분석이 가능하다 [26].
RNA-Seq의 기본적인 원리는 mRNA나 miRNA 등 원하는 RNA를 분리한 뒤, RNA를 DNA로 변환한 뒤 아답터를 붙여서 라이브러리를 제작하는 것이다. RNA는 유전체와 달리 세포 내에 존재하는 양이 그 특징에 따라 매우 다양하기 때문에, 극소량의 mRNA까지 성공적으로 검출해내기 위해서는 최대한 많은 read를 읽음으로써 sequencing depth를 올리는 것이 무엇보다도 중요하다. 또한 transcriptome의 대다수를 차지하는 rRNA 등을 효과적으로 제거하는 것이 도움이 된다. 그러나 miRNA 등 small RNA는 그 크기가 작기 때문에, 라이브러리 제작에 사용되는 아답터가 형성하는 아답터-이합체 (adapter-dimer) 와 구별하기 어렵다는 문제점이 존재한다. 이러한 한계점들을 종합해봤을 때 NGS를 이용한 transcriptome 분석법의 발전을 위해서는 고품질의 라이브러리 제작법에 대한 연구가 뒷받침되어야 할 것이라 생각된다. 

3.4 DNA/RNA-protein interactions 

ChIP (Chromatin immunoprecipitation) 은 크로마틴 결합 단백질이 유전체의 어떤 부분과 결합하는지 알아보기 위하여 고안된 실험법이다. NGS 기술의 발달로 인해 ChIP 실험으로 얻은 각각의 DNA 조각들을 곧바로 시퀀싱하여 그 염기 서열을 파악할 수 있게 되었는데, 이러한 시험법을 ChIP-Seq (Chromatin immunoprecipitation followed by sequencing) 이라고 한다. 또한 CLIP-Seq (Cross-linking immunoprecipitation sequencing) 이라는 방법도 개발되었는데, 이는 특정 단백질과 결합하는 RNA를 규명하기 위한 실험이다. RNA와 단백질을 crosslinking시키는 것은 ChIP-Seq과 동일한 원리지만, CLIP-Seq에서는 염기서열 해독을 위해 RNA를 DNA로 변환하는 단계가 포함된다. 최근에는 특정한 화합물과 결합하는 DNA 조각의 염기 서열을 분석하는 Chem-Seq (Chemical affinity capture and massively parallel DNA sequencing) 이라는 기법이 발표되었는데 [27], 이 방법을 이용하여 small molecule의 genomic target을 규명함으로써 신약 후보 물질 개발 등에 응용할 수 있다.

3.5 생명공학, 합성생물학과 NGS 

산업계에서의 NGS 응용 가능성도 최근 다양한 측면으로 제시되고 있다. 대표적인 예가 세포주를 균일하게 유지하기 위한 유전체 분석이다. 특정 세포주를 세대를 반복하여 계대 배양하면 그 과정에서 유전체 또는 후성 유전학적 변이가 생길 가능성이 있는데, 각 세포주의 유전체를 NGS를 이용하여 빠르게 분석함으로써 각 단계에서의 돌연변이를 모니터링 하여 세포주의 품질을 유지할 수 있다. 

또한 다양한 환경에서의 세포의 활성 변화 및 유전자 발현 패턴의 변화를 관찰하는 데에도 NGS는 유용한 도구가 될 수 있다. 예를 들어 산업용 미생물에 다양한 생장 조건을 처리한 뒤 RNA-Seq을 수행하여 특정 조건에서 발현량에 변화가 있는 유전자를 추출해낼 수 있다. 이러한 정보를 바탕으로 공정에 유용하게 사용할 수 있는 바이오 마커를 개발하는 데 응용할 수 있다.


4. 단일분자염기 서열분석법 (“Third-generation Sequencing”)

NGS 기술이 비약적으로 발전했음에도 불구하고 NGS의 개념 자체가 안고 있는 한계점들이 여전히 존재한다. 그 중 하나는 염기서열 분석 과정에서 발생하는 랜덤 에러에 취약하다는 것이다. 자동화된 생어 시퀀싱의 결과는 샘플 내 모든 DNA에 표지된 형광의 총합으로 나타나게 된다. 따라서 돌연변이나 오차가 생기더라도 다수의 DNA가 정확하게 분석되었다면 그 오류가 상쇄될 수 있다. 반면 NGS는 단일 가닥의 염기서열을 모두 분석하기 때문에, 증폭되는 과정에서 중합효소에 의해 발생하는 에러 등을 모두 검출해내게 된다. 따라서 NGS에서는 동일한 샘플을 반복적으로 분석하여 coverage depth를 증가시키는 등의 추가적인 노력이 필요하다 [28]. 

“Third-Generation Sequencing” 이라 불리는, 유전체의 증폭 없이 단일 가닥 DNA 시료의 염기서열을 분석하기 위한 기법들은 앞에서 제시한 NGS의 한계점을 극복할 수 있는 새로운 염기서열 분석법이 될 것이라 주목 받고 있다. NGS에 비해 read-length가 길고 극미량의 DNA 시료를 분석할 수 있다는 장점이 있다. 또한 NGS에서 필수적인 DNA 증폭 단계를 생략함으로써 PCR 과정에서 돌연변이 생성 등의 오류를 방지할 뿐만 아니라, coverage depth를 올리지 않더라도 low-abundance variant를 효과적으로 검출할 수 있음은 물론 PCR 단계 및 반복 실험의 생략으로 인한 비용 및 시간 절감 효과를 기대할 수 있다. 또한 “Programmable-real-time targeted sequenc-ing” 의 개념도 제시되고 있는데, 이는 어떠한 전처리 과정 없이 특정 유전체 중 원하는 부분을 실시간으로 분석할 수 있는 기법을 말한다. 예를 들어, 어떤 유전체의 특정 유전자를 분석하고자 한다면, 이 유전체의 염기 서열을 곧바로 읽기 시작하고, 그 결과와 원하는 유전자의 서열을 실시간으로 align하여 원하는 유전자 서열이 나오는 순간까지 염기서열 분석을 수행하는 방식이다 [29]. 

최초의 단분자 염기서열 분석 장비인 Single-Molecule Real Time (SMRT) sequencer는 Pa-cific Biolab에서 개발되었다. 현재 출시된 플랫폼인 PacBio RS II 은 lead length가 15kb에 달하며, 분석 속도도 2시간 정도로 매우 빠르다. 2014년 10월 발표한 케미스트리 업데이트에 따르면 Pac-Bio RS II의 최장 read는 현재 40kb에 달하는 것으로 보인다 [30]. 옥스포드 나노포어 (Oxford Na-nopore) 사에서 개발한 염기서열 분석 방법은 “나노포어 (Nanopore)” 에 DNA 가닥이 들어갔을 때 염기의 크기에 따라 미세한 전위차가 발생하는 것에 착안했다. 옥스포드 나노포어는 2012년 발표한 MinIONTM과 GridIONTM에 이어, 2014년 10월 샌디에고에서 열린 ASHG 학회에서는 신제품인 PromethIONTM을 발표했다 [29]. PromethIONTM은 타블렛 정도의 크기를 가진 benchtop 규격의 나노포어 시퀀서로, 15만개 이상의 나노포어로 구성되어 있으며, 분석 비용은 기가바이트당 30불 정도이다.

이 밖에도 수많은 기업들이 단분자 염기서열 분석법을 개발하기 위해 노력하고 있다. 2014년 6월 Roche는 반도체 기반 단분자 염기서열 분석 장비를 개발하는 스타트업인 Genia를 인수하였음을 밝혔다 [31]. Roche는 앞서 2013년 10월 454 sequencing 사업을 2016년에 중단한 것을 발표한 바 있다. 이번 인수합병을 계기로 Roche는 단분자염기서열 분석 장비의 개발 및 시장 선점에 박차를 기할 것이라 예상할 수 있다. Quantum Biosystems 사도 역시 자체적으로 단분자 염기서열법을 개발하고 있으며, 최근 자사의 기술을 이용한 최초의 시퀀싱 결과를 공개하였다 [32]. 

그러나 현재까지 개발된 단분자 염기서열 분석법들은 모두 에러율이 매우 높다는 한계가 있다. NGS 플랫폼은 Illumina는 치환 (substitution), Ion Torrent는 Indel 에러 등의 주요 에러 모델이 이미 규명되어 있다. 이러한 에러들은 read 갯수를 늘리고 특수한 알고리즘을 적용하여 그 정확도를 향상시킬 수 있지만, 옥스포드 나노포어 등의 분석법들에서 발생하는 오차는 아직 그 에러 모델이 명확하게 규명되어 있지 않다.


5. 결론 

차세대 염기서열분석법이 상용화된지 10년 째인 현재는 본격적인 유전체학의 시대라 해도 과언이 아닐 것이다. 불과 20년 전 유전자 하나를 클로닝하여 각 유전자의 기능을 연구하던 연구자들은 이제 특정 생명 현상과 관련된 모든 유전자들 사이의 상관 관계를 통합적으로 파악할 수 있게 되었다. 또한 transcriptome 연구 분야의 사례와 같이, NGS는 기존의 연구 방법을 완전히 새로운 기법으로 탈바꿈시키기도 한다. NGS 분석에 소요되는 비용은 해가 갈수록 하락하고 있으며, 향후 NGS는 현재 각 실험실에서 생어 시퀀싱을 사용하는 만큼이나 빈번하게 사용될 것이다.

연구자가 NGS를 활용하기 위해서는 먼저 NGS의 장점인 대규모 염기서열 분석을 어떻게 개인의 연구분야에 효과적으로 접목시킬 수 있을 것인지에 대해 고민해야 한다. 한 번의 NGS 분석으로도 상당히 많은 양의 데이터가 생성되기 때문에, 데이터를 어떻게 분석하여 그 중에서 유의미한 결과를 추출해낼 것인지에 대한 충분한 계획을 세우고 실험을 디자인해야 한다. NGS 기술은 최근 수 년 사이에 급격하게 변화해왔듯이 앞으로도 빠르게 진화할 것이고, 따라서 연구자들은 실시간으로 변하는 기술 동향을 빠르게 파악함으로써 각자의 연구에 가장 적절한 플랫폼 및 분석 방법을 선택하여 사용해야 할 것이다. 

단분자 염기서열 분석법 역시 아직은 초기 개발 단계의 기술이지만, 현재의 NGS 기법이 10년 만에 괄목한 발전을 이뤄낸 것과 마찬가지로 향후 기술력이 비약적으로 상승할 것이라 예측된다. 이 분석법이 본격적으로 상용화된다면 DNA 염기서열 분석법과 유전체학 등 다양한 연구 분야에 또 한 번의 혁신을 가져올 것이다

Posted by 레이징불

댓글을 달아 주세요

 

전에 다니던 회사에서 2007년 처음으로 국내에 NGS를 도입하였다. 그 당시에 팀을 새로 만들어서 야심차게 준비하였다. 기가 시퀀싱팀이라는 이름으로 팀을 만들었으며, 그 당시에 LT의 전신인 applied biosystem 이라는 회사에서 3730XL이라는 장비로 700bp의 DNA reads를 생산하고 있었던 시절이다. 96well로 양방향을 읽어도 130Kb를 읽던 시절이었으며, 가격은 100만원 정도 하던 시절이다. 기가시퀀싱 팀은 몇달만에 일루미나에서 NGS라는 이름으로 불리어지면서 NGS팀으로 변경하였다. 기가를 논하던 시대에서 불과 8년만에 현재 HiSeq X-10 이라는 장비가 나왔고, 이제는 한번 러닝에 1.8Tb의 데이터를 얻을 수 있다. 시퀀싱 해독만으론 100만원으로 인간 유전체를 분석할 수 있는 30X의 100Gb의 데이터를 생산하는 시대가 되었다.

처음에 솔렉사라는 장비를 image analysis에서 alignment까지 돌릴 수 있는 goat_pipelie.py를 돌리던 시절에만 해도 국내에서 NGS를 다루는 사람이 많지 않았었는데...지금은 대부분의 연구자들이 NGS 데이터를 이용하여 유전체 연구에 활용하고 있다.

현재까지 나와있는 NGS 장비들의 스펙을 정리해봤다. 처음 454에서 이젠 옥스포드 나노포어까지 많은 NGS 플랫폼이 시장에 출시 되었다. 그러나 아직까지 연구 용역시장에선 일루미나의 독주이다. 그림이 깨져 보이는 분들을 위해서 파일 첨부 합니다.

 

NGS_Equip_Spec.pdf

 

 

 

 

Posted by 레이징불

댓글을 달아 주세요

  1. damian 2015.03.17 14:23  댓글주소  수정/삭제  댓글쓰기

    정말 고급 정보네요~^_^ 정리해 주신 소중한 정보 공유 감사합니다~!

  2. NGS 2015.11.01 21:29  댓글주소  수정/삭제  댓글쓰기

    안녕하세요. 정보 정말 감사드립니다. 혹시 일루미나에서 나온 low sequencer는 없나요..? 어디서 들어본것 같아서요.. 있다면 hi sequencer와는 어떤 차이인지 여쭤보려합니다. 답변 기다리겠습니다^^

2015. 3. 4. 10:14

빅데이터와 게놈시대 잡설/세상만사2015. 3. 4. 10:14

 빅데이터와 게놈시대(Big Data and Era of Genome)

 

 최근 정보통신 기술의 급격한 발전으로 데이터의 생산, 저장, 처리능력을 급격히 향상 시키고 있다. 이러한 이유는 데이터 저장장치의 용량이 커지고 가격은 낮아져 데이터 저장능력뿐만 아니라 전산을 처리하는 하드웨어의 성능에서 그 이유가 있다. 또한 스마트 기기의 대중화로 언제, 어디서, 누구나 정보의 생산과 전달이 가능한 사회에 살고 있다. 현대 사회에선 오프라인의 매장에서 물건을 사는 시대에서 온라인 쇼핑몰에서 물건을 구매하며, 궁금한 내용을 학교 선생님이 아니라 포털 사이트의 지식인에게 질문을 통하여 궁금증을 해결하고 있다. 또한 자신의 의견 및 일상생활을 친구들과의 수다에서 벗어나 온라인 상의 페이스북, 트위터와 같은 SNS를 통하여 소통을 하는 시대이다.

 

세계적 인터넷 포털 사이트인 구글이 하루에 처리하는 데이터 양이 24PB( 2400만 기각 바이트)정도 이다. 이는 미국 의회 도서관에 있는 전체 인쇄물의 수천 배에 달한다. 빅데이터는 양적인 데이터의 사이즈뿐만 아니라 이를 해석하는 분석기법을 통하여 사회의 전반적인 변화를 분석하고 예측할 수 있게 되었다. 구글은 이러한 데이터 기반으로 구글 트렌드(특정 검색어의 기간별 검색량을 분석해주는 서비스)를 이용하여 빅데이터를 이용하는 대표적인 사례이다. 2012 12월 대통령 선거에서도 박근혜 대통령과 문재인 대선후보의 키워드 검색량을 통하여 대통령 당선을 예측한 사례도 있다. 국내뿐만 아니라 해외에서도 이러한 사례는 많다. 가까운 일본의 경우, 도쿄해상화재보험은 통신사인 NTT도코모와 제휴해 GPS 정보를 기반으로 고객이 스키장이나 골프장에 도착하면 목적에 맞는 보험 안내 메일을 전송한다. 미국 대형마트 타깃의 마케팅 사례 중엔 하루는 한 고객이 고등학생인 딸이 출산용품 광고메일을 받았다며 매장에서 거칠게 항의를 했다. 후에 딸은 자신이 임신한 사실을 아버지에게 털어놓았다. 어떻게 아버지도 모르는 사실을 타깃마트는 알고 쿠폰을 보낸 것일까? 타깃마트는 고객의 구입패턴, 구매 품목 등의 엄청난 양의 데이터를 분석하여 특이 패턴을 찾아내는 모델을 운영, 맞춤형 쿠폰을 제공한 사례이다. 이는 현재 GS슈퍼가 30만원 이상 소비를 하는 고객을 대상으로 자주 사용하는 전용 쿠폰을 발송하여 단골 고객으로 만드는 마케팅과 유사하다.

 

이러한 다양한 분야는 게놈 분야 역시 예외는 아니다. 2015년 1월말 미국 오바마 대통령이 PMI(Precision Medicine Initiative)를 발표하면서 또 다시 한번 게놈에 불을 지폈다. 또한 인간 유전자 지도가 세상에 발표된 지 12년이 되는 해이다. 13년간 약 3조원이 투입 된 인간 게놈 프로젝트는 2006 454 Solexa라는 차세대 염기서열 분석기(Next Generation Sequencer)가 출시 되면서, 빠른 시간 안에 시장을 점유하여 현재는 짧은 기간 안에 대용량의 유전체를 분석하는 시대가 되었다. 13년이 걸리던 일이 단 1주안에 끝나게 되었다. 이러한 NGS 기술은 개인 맞춤형 치료의 서막을 여는데 큰 공을 세웠다. 현재는 한 명의 유전체 크기가 3Gb(Giga basepair)라고 하면 HiSeq X-Ten 장비를 가지고 하루에 5명의 데이터를 생산한다. 또한 해외의 23andMe나 국내의 헬로진과 같은 개인 유전체 분석을 해주는 서비스가 늘어나면서 유전체 분야에서도 빅데이터에 대한 관심이 생기기 시작했다. 인간의 유전체는 30억 베이스의 쌍으로 이루어져 있으며, 이를 해독하기 위해선 NGS의 짧은 길이의 리드를 고려하여 30배수의 해독을 진행해야 원하는 결과를 얻을 수 있다. 그렇다면 개인당 약 90Gb의 데이터를 생산해야 하며, 다시 이 데이터를 분석하기 위해선 수백Gb의 데이터가 필요하다. 예전 스토리지 서버를 공급하는 회사에서 국내 기상청과 EBS 다음으로 유전체 분야에 종사하는 회사들이 많은 데이터를 필요로 한다고 한다. 기상청에선 해상도가 높은 기상 관측의 이미지를 바탕으로 일기예보를 예측해야 하기 때문에 필요할 것이라고 생각하며, EBS는 인터넷 강의를 위한 VOD서비스 차원에서 데이터 보관이 필요하다고 생각하지만, 은행이나 IT기업이 아닌 생명공학 회사가 많은 양의 데이터를 필요로 한다고는 생각하지 않을 것이다. 그러나 위 내용을 근거로 한다면 충분히 공감이 될 것이다.

 

앞서 말한 23andMe 회사에선 500,000명 이상의 개인 유전체 분석 서비스를 진행했으며, 이러한 데이터는 추후 늘어날 예정이다. 국내에서도 생명공학 회사들이 유전체 시장에서 게놈의 빅데이터를 다루기 위한 많은 투자와 솔루션을 찾기 위해 노력하고 있다. 현재 개인 유전체 해독에 소요되는 시간과 비용은 감소되었다. 하드웨어는 갖춰져 있으니 이를 응용 할 유전체 분야의 소프트웨어 개발을 통하여 선진국과 경쟁력 있는 게놈 빅데이터 시대를 열어 나가야겠다. 이러한 응용분야는 맞춤의료뿐만 아니라, 식량, 에너지 자원 및 새로운 소재 개발 등의 미래 산업에서 대한민국의 반도체, 자동차에 이어서 경쟁력 있는 분야로 추가 될 것이다.

 

현재상황에서 많은 양의 개인 유전체 데이터를 이용하여 맞춤의학을 가기 위한 첫 단추는 잘 끼워져 있다고 생각한다. 앞으로 정부와 산업 분야에서의 관심을 근간으로 위에서 언급한 산업적으로 이용하고 있는 사례와 같은 빅데이터의 패턴을 파악하여 유전체 분야 나가서는 의학 분야에서도 의미 있는 결과를 얻을 수 있을 것으로 본다.

Posted by 레이징불

댓글을 달아 주세요

2015. 2. 17. 13:20

중국 의료시장 준비 잡설/세상만사2015. 2. 17. 13:20

중국 의료시장의 확대

       기대 수명과 소득수준 향상 등으로 중국의 의료비 지출은 지속적 증가

        2005년 이후 2011년까지 중국의 총 의료비 지출액은 18.7%, 인구 1인당 의료비 지출액은 23.1% 증가

        2011년 중국의 GDP 대비 의료비 지출은 5.2%이며, 2020년에는 6.5%~7%로 증가할 전망

 

 

 

 

의료서비스 시장

최근 5년간 연평균 약 20%속도로 급성장

최상류층

2012년 천만장자 105만명, 전년대비 3%증가

고급의료서비스

연간 3000~4000만명 추산(중국보험회사 조사치)

고급의료보험

연간 200억 위안 규모 추정(중더알리안츠생명)

해외원정진료

고급의료시설의 부족으로 해외원정 진료 여행산업 발달

고급종합병원

베이징, 상하이, 광저우를 중심으로 약 30여개 브랜드 체인설립

고급전문병원

치과 41%, 산부인과 15%, 건강검진 13%, 안과 8% 비중

의료시장개방

2012년 중외합자, 합작의료기구 설립 심사 기준완화

중외합작고급병원

화무자(미국), 파크웨이(싱가포르), 상하이허신병원(타이완)

 

중국 의료정책의 변화

       중국 병원 수의 증가는 민영병원이 꾸준히 늘어난 데 기인

        2013년 기준 공립병원은 약 13,000개로 민영병원에 비해 약 3,000개 많지만, 최근 5년간 민영병원의 수는 73% 증가한 반면 공립병원의 수는 약 4% 감소

 

 

중국 정부의 정책

중국정부의 제125개년 계획(2011~2015) 중 의료서비스 분야의 주요 정책 방향은 기층공공의료의 수준을 높이는 것임. (의료인력 확충, 공공의료보험 확대, 의료정보화 확대, 의약품관리 강화, 의료기기 고급 확충 등)

동시에 의료서비스의 외부개방(정부 이외의 사회자본 참여) 폭을 더욱 확대하여 민영병원을 육성시키고 상업의료보험을 활성화 시켜, 공공의료 이외의 다양한 의료서비스 수요를 만족시키고자 하고 있음. 이런 발전에 역행하는 것인지 아니면 유전자 검사 기술에 올바른 정착을 위해서인지 중국 정부에서 칼을 대고 있다.

 

각급 정부의 위생국은 유전자검사기술의 관리를 강화하여야 한다. 관리규범이 발표 되기 전에 어떠한 의료기구에서든 유전자검사 임상응용을 해서는 안되며, 이미 진행한 곳은 즉시 정지해야 한다. 공문이 내려간 후 계속 진행하는 기관은 법적으로 조사를 할 것이고 관련상황을 국가위생계생위에 즉시 보고해야 한다.

유전자검사제품 등록을 하지 않고 사용하는 기관이나  회사는 법규규정을 확실히 따져야 하며, 즉각 이용을 중지해야의료기계감독조례의 관련규정에 따라 처벌하고 식품약품관리국에 보고해야 한다.

앞으로 중국 내 의료시장 특히, 유전체 사업을 진출 하기 위한 준비가 필요하다.

Posted by 레이징불

댓글을 달아 주세요

Bisulfite처리 없이 PacBio RS는 실시간으로 sequencing이 진행하는 동안 base incorporation의 kinetics를 측정하여 직접적으로 다양한 base modification을 찾을 수 있는 application이 있습니다.

PacBio에선 web-interface 기반의 SMRT Portal이 있습니다. 이러한 프로그램은 SMRT Analysis 설치하여 브라우징을 띠우면 자신이 분석 해야할 프로토콜을 지정 할 수 있으며, 해당 결과 데이터 및 viewer를 볼 수 있습니다. 

SMRT Analysis Protocol

1. De novo assembly 

  • RS_Allora_Assembly : De novo assembly using Allora
  • RS_Allora_Assembly_EC : Hybrid assembly using P_ErrorCorrection and Allora
  • RS_AHA_Scaffolding : Scaffolding assembly using AHA
  • RS_Celera_Assembler : Use pacBioToCa and Celera Assembler to combine PacBio CLR and CCS, Illumina, 454, Ion Torrent or Sanger

2. Targeted sequencing

  • RS_Resequencing_GATK : Align against reference and call varints using GATK
  • RS_Resequencing : Align against reference and generate consensus
  • RS_Minor_and_Compound_Variants : Align CCS against a reference can cal minor and compound varinats

3. Base modification

  • RS_Modification_and_Motif_Analysis : Identify bacterial modifications 6-mA, 4-mC, 5-mC and analyze motifs
  • Rs_Modification_Detection : Align against reference and identify base modification positions

4. Other

  • RS_ErrorCorrection : Error correction only using P_ErrorCorrection
  • RS_Filter : Filter to generate filtered_subreads.fastq

이 중에서 오늘은 Base modification의 분석에 대해서 설명하겠습니다. 

내가 원하는 프로토콜을 선택 후에 start 버튼을 클릭하면 자동으로 분석하여 결과 데이터를 받아 볼 수 있습니다. 왼쪽 하단의 DATA 밑에 있는 SAM/BAM뿐만 아니라 GFF format의  methylation 결과 데이터를 다운로드 할 수 있습니다. 또한 SMRTView를 통하여 mapping된 read뿐만 아니라 해당 position의 IPD ratio와 motif를 확인 할 수가 있습니다.  

현재 SMRT Analysis를 통하여 base modification의 분석을 할 수 있는건 Prokayotic methylation(6-mA, 4-mC, 5-mC)에 국한되어 있습니다.  물론 control이 없는 경우와 있는 경우 둘 다 분석이 가능합니다. control이 있는 경우엔 control결과와 비교하여 IPD ratio의 차이를 가지고 methylation을 찾으며, 없는 경우엔 native DNA의 IPD raio와 비교하여 methylation을 찾습니다.

또한 5-mC을 찾기 위해선 많은 양의 데이터가 필요합니다. 5-mC의 IPD ratio가 native DNA base의 IPD ratio와 비교하여 차이가 없어서 high depth를 가지고 찾아야 했으나,  WiseGene사의 Tet1 Enzyme을 사용하면 적은양으로도 IPD ratio의 변화를 찾을 수 있어서 5-mC methylation을 찾을때 권장 합니다.

Posted by 레이징불

댓글을 달아 주세요

Epigenetics연구를 위해선 현재 DNA methyation 분석과 Histon modification 연구가 가장 활발하게 진행 중 입니다.
 
포유류동물의 genomic DNA 상의 대략 3-5%의 시토신(cytosine)이 메틸화되어있고, 그중에 대략 70%가 CpG dinucleotide상에 존재한다고 합니다. 이들 CpG가 모여있는 CpG island는 유전자의 발현을 조절하는 promotor부위에서 많이 발견되며, 이들의 methylation 패턴(Hypo- or hyper methylation)에 따라서 그 유전자의 발현양상을 조절 할 수 있는것 입니다.

DNA methylation은 gene expression, host-pathogen interactions, DNA damage와 DNA repair같은 생물학적으로 중요한
기능을 가지고 있습니다.  현재 NGS에서 DNA상의 methylation유무를 확인하기 위해서는, 우선 cytosine의 methylation 유무를 서로 다르게 표지하는 단계가 필요합니다. 이를 위해서 일반적으로 bisulfite DNA modification방법이 많이 쓰이고 있습니다.

Sodium bisulfite를 DNA에 처리하게되면, DNA 상의 unmathylated cytosine(C)염기는 deamination되어 Uracil(U)염기로 바뀌어버리는 반면, methylated cytoine(C)는 그대로 cytosine(C)로 남아있게됩니다. 즉, cytosine의 methylation 유무에 따라 서로 구별할 수 있도록 다른 염기로 표지할 수 있습니다. 이렇게 원래의 DNA 시퀀스와 methylation 유무에 따라 다르게 바뀐 염기를 bisulfite sequencing 또는 methylation specific PCR (MSP)등의 방법으로 분석하여 봄으로써 DNA의 어느 부위에 있는 base가 methylation되어있는지 그 패턴을 파악할 수 있는 것입니다. 

이러한 방법은 전처리 과정으로 bisulfite 과정이 필요 합니다. 그러나 PacBio RS는 실시간으로 sequencing이 진행하는 동안 base incorporation의 kinetics을 측정하여 직접적으로 다양한 base modification 부분을 찾을 수 있습니다.  

실시간으로 DNA Polymerase가 base incorporation 하는 동안에 native base와 modified base의 IPD(Inter Pulse Duration)를 가지고 구분 할 수가 있습니다. native base의 평균 IPD ratio와 modified base의 평균 IPD ratio 차이를 구분하여 modified base의 위치를 알 수가 있습니다. 예를 들어서 5 IPD ratio는 normal base의 IPD ratio 1에 비하여 5배 이상 incorporation 하는 시간이 길어졌다는 의미 입니다. 

PacBio는 실시간으로 base incorporation 하여 IPD ratio를 측정하기 때문에 methylation뿐만 아니라 prokaryotic, eukaryotic, DNA damage등을 찾을 수 있습니다.

아래 그림은 IPD pattern에 따라서 서로 다른 modification을 가지고 있습니다. 현재 NGS 플랫폼에선 5-mC & 5-hmC만 kit를 통해서 구분이 가능하지만 PacBio RS를 이용하면 다양한 base modification을 찾을 수 있습니다.

 

Posted by 레이징불

댓글을 달아 주세요