글로버메뉴 바로가기 본문 바로가기 하단메뉴 바로가기

논문검색은 역시 페이퍼서치

> 한국통계학회 > 응용통계연구 > 29권 6호

그룹 구조를 갖는 고차원 유전체 자료 분석을 위한 네트워크 기반의 규제화 방법

Network-based regularization for analysis of high-dimensional genomic data with group structure

김기풍 ( Kipoong Kim ) , 최지윤 ( Jiyun Choi ) , 선호근 ( Hokeun Sun )

- 발행기관 : 한국통계학회

- 발행년도 : 2016

- 간행물 : 응용통계연구, 29권 6호

- 페이지 : pp.1117-1128 ( 총 12 페이지 )


학술발표대회집, 워크숍 자료집 중 1,2 페이지 논문은 ‘요약’만 제공되는 경우가 있으니,

구매 전에 간행물명, 페이지 수 확인 부탁 드립니다.

4,700
논문제목
초록(한국어)
고차원 유전체 자료를 사용하는 유전체 연관 분석에서는 벌점 우도함수 기반의 회귀계수 규제화 방법이 질병 및 표현형질에 영향을 주는 유전자를 발견하는데 많이 이용된다. 특히, 네트워크 기반의 규제화 방법은 유전체 연관성 연구에서의 유전체 경로나 신호 전달 경로와 같은 생물학적 네트워크 정보를 사용할 수 있으므로, Lasso나 Elastic-net과 같은 다른 규제화 방법들과 비교했을 경우 네트워크 기반의 규제화 방법이 보다 더 정확하게 관련 유전자들을 찾아낼 수 있다는 장점을 가지고 있다. 그러나 네트워크 기반의 규제화 방법은 그룹 구조를 갖고 있는 고차원유전체 자료에는 적용시킬 수 없다는 문제점을 가지고 있다. 실제 SNP 데이터와 DNA 메틸화 데이터처럼 대다수의 고차원 유전체 자료는 그룹 구조를 가지고 있으므로 본 논문에서는 이러한 그룹 구조를 가지고 있는 고차원 유전체 자료를 분석하고자 네트워크 기반의 규제화 방법에 주성분 분석(principal component analysis; PCA)과 부분최소 자승법(partial least square; PLS)과 같은 차원 축소 방법을 결합시키는 새로운 분석 방법을 제안하고자 한다. 새롭게 제안한 분석 방법은 몇 가지의 모의실험을 통해 변수 선택의 우수성을 입증하였으며, 또한 152명의 정상인들과 123명의 난소암 환자들로 구성된 고차원 DNA 메틸화 자료 분석에도 사용하였다. DNA 메틸화 자료는 대략 20,000여개의 CpG sites가 12,770개의 유전자에 포함되어 있는 그룹 구조를 가지고 있으며 Illumina Infinium Human Methylation27 BeadChip으로부터 생성되었다. 분석 결과 우리는 실제로 암에 연관된 몇 가지의 유전자를 발견할 수 있었다.
초록(외국어)
In genetic association studies with high-dimensional genomic data, regularization procedures based on pe-nalized likelihood are often applied to identify genes or genetic regions associated with diseases or traits. A network-based regularization procedure can utilize biological network information (such as genetic path-ways and signaling pathways in genetic association studies) with an outstanding selection performance over other regularization procedures such as lasso and elastic-net. However, network-based regularization has a limitation because cannot be applied to high-dimension genomic data with a group structure. In this article, we propose to combine data dimension reduction techniques such as principal component analysis and a partial least square into network-based regularization for the analysis of high-dimensional genomic data with a group structure. The selection performance of the proposed method was evaluated by extensive simulation studies. The proposed method was also applied to real DNA methylation data generated from Illumina Infinium HumanMethylation27K BeadChip, where methylation beta values of around 20,000 CpG sites over 12,770 genes were compared between 123 ovarian cancer patients and 152 healthy controls. This analysis was also able to indicate a few cancer-related genes.

논문정보
  • - 주제 : 자연과학분야 > 통계학
  • - 발행기관 : 한국통계학회
  • - 간행물 : 응용통계연구, 29권 6호
  • - 발행년도 : 2016
  • - 페이지 : pp.1117-1128 ( 총 12 페이지 )
  • - UCI(KEPA) : I410-ECN-0102-2017-310-000578901
저널정보
  • - 주제 : 자연과학분야 > 통계학
  • - 성격 : 학술지
  • - 간기 : 격월
  • - 국내 등재 : KCI 등재
  • - 해외 등재 : -
  • - ISSN : 1225-066x
  • - 수록범위 : 1987–2019
  • - 수록 논문수 : 1835