글로버메뉴 바로가기 본문 바로가기 하단메뉴 바로가기

논문검색은 역시 페이퍼서치

응용통계연구검색

The Korean Journal of Applied Statistics


  • - 주제 : 자연과학분야 > 통계학
  • - 성격 : 학술지
  • - 간기: 격월
  • - 국내 등재 : KCI 등재
  • - 해외 등재 : -
  • - ISSN : 1225-066x
  • - 간행물명 변경 사항 :
논문제목
수록 범위 : 34권 3호 (2021)

단어 임베딩 기법을 이용한 한글의 의미 변화 파악

선현석 ( Hyunseok Sun ) , 이영석 ( Yung-seop Lee ) , 임창원 ( Changwon Lim )
한국통계학회|응용통계연구  34권 3호, 2021 pp. 281-294 ( 총 14 pages)
5,400
초록보기
최근 들어 많은 사람들이 자신의 관심사를 SNS에 게시하거나 인터넷과 컴퓨터의 기술 발달로 디지털 형태의 문서 저장이 가능하게 됨으로써 생성되는 텍스트 자료의 양이 폭발적으로 증가하게 되었다. 이에 따라 수많은 문서 자료로부터 가치 있는 정보를 창출하기 위한 기술의 요구 또한 증가하고 있다. 본 연구에서는 대통령 연설 기록문과 신문기사 공공데이터를 활용하여 한글 단어들이 시간에 따라 어떻게 의미가 변화되어가는지를 통계적 기법을 통해 발굴하였다. 이를 이용하여 한글의 통시적 변화 연구에 활용할 수 있는 방안을 제시한다. 기존 언어학자나 원어민의 직관에 의해 연구되던 한글의 이론적 언어 현상 연구에서 벗어나 누구나 사용할 수 있는 공공문서를 통해 수치화된 값을 도출하고 단어의 의미변화 현상을 설명하고자 한다.

고차원 관측자료에서의 Q-학습 모형에 대한 이중강건성 연구

이효빈 ( Hyobeen Lee ) , 김예지 ( Yeji Kim ) , 조형준 ( Hyungjun Cho ) , 최상범 ( Sangbum Choi )
한국통계학회|응용통계연구  34권 3호, 2021 pp. 295-313 ( 총 19 pages)
5,900
초록보기
동적 치료 요법(dynamic treatment regimes; DTRs)은 다단계 무작위 시험에서 개인에 맞는 치료를 제공하도록 설계된 의사결정 규칙이다. 모든 개인이 동일한 유형의 치료를 처방받는 고전적인 방법과 달리 DTR은 시간이 지남에 따라 변할 수 있는 개별 특성을 고려한 환자 맞춤형 치료를 제공한다. 최적의 치료 규칙을 파악하기 위한 회귀 기반 알고리즘 중 하나인 Q-학습 방법은 쉽게 구현될 수 있기 때문에 더욱 인기를 끌고 있다. 그러나 Q-학습 알고리즘의 성능은 Q-함수를 제대로 설정했는지의 여부에 크게 의존한다. 본 논문에서는 고차원 데이터가 수집되는 DTRs 문제에 대한 다양한 이중강건 Q-학습 알고리즘을 연구하고 가중 최소제곱 추정 방법을 제안한다. 이중강건성(double-robustness)은 반응변수에 대한 모형 혹은 처리변수에 대한 모형 둘 중 하나만 제대로 설정되어도 불편추정량을 얻을 수 있음을 의미한다. 다양한 모의실험 연구를 통해 제안된 방법이 여러 시나리오 하에서도 잘 작동함을 확인하였으며 실제 데이터 예제를 통해 방법론에 대한 예시를 제시하였다.

오토인코더를 이용한 딥러닝 기반 추천시스템 모형의 비교 연구

이효진 ( Hyo Jin Lee ) , 정윤서 ( Yoonsuh Jung )
한국통계학회|응용통계연구  34권 3호, 2021 pp. 315-331 ( 총 17 pages)
5,700
초록보기
추천 시스템은 고객의 데이터를 이용하여 개인 맞춤화된 상품을 추천한다. 추천 시스템은 협업 필터링, 콘텐츠 기반 필터링 그리고 이 두 가지를 합친 하이브리드 방법의 세 가지로 크게 나누어진다. 이 연구에서는 딥러닝 방법론에 기초한 오토인코더를 이용한 추천 시스템에 대한 소개와 그 모형들의 비교 연구를 진행한다. 오토인코더는 데이터 행렬에 0이 많은 경우의 문제를 효과적으로 다룰 수 있는 딥러닝 기반의 비지도학습 모형이다. 이 연구에서는 세 개의 실제 데이터를 이용하여 다섯 가지 종류의 오토인코더 기반 모형들을 비교한다. 처음의 세 개 모형은 협업 필터링에 속한 모형이고 나머지 두 개의 모형은 하이브리드 모형이다. 실제 데이터는 고객의 평점 데이터이고, 대부분의 평점이 없어서 희박성 비율이 높다는 특징이 있다.

코호트 효과를 고려한 확률적 사망률 예측 모형의 비교 연구

김순영 ( Soon-young Kim )
한국통계학회|응용통계연구  34권 3호, 2021 pp. 333-359 ( 총 27 pages)
6,700
초록보기
지난 50여 년 동안 우리나라의 사망률 감소 패턴에 대한 탐색적 연구에 의하면 연령별 사망률이 모든 연령에서 감소했지만, 특정한 사망률이 개선되고 있는 패턴은 연령과 기간에 따라 다르다는 것을 알 수 있다. 여자가 남자보다 사망률 개선이 뚜렷하고 특히 시간이 지나면서 특정그룹에서의 사망률 개선이 두드러짐에 따라 전반적으로 사망 시간 추세에 구조적인 변화가 존재함을 확인하였다. 이에 본 연구에서는 우리나라 여자 사망률 자료를 이용하여 미래 사망률 예측을 위해 코호트 효과를 고려한 다양한 확률적 사망률 모형을 살펴보았다. 또한 분석 결과를 바탕으로 2067년까지 연령별 사망률과 예측기대수명을 작성하고 통계청(KOSIS)에서 제공하는 장래 연령별 사망률과 기대수명과 비교하였다. 자료이용기간에 따라 최적의 모형이 상이하나 적합력과 예측력을 전반적으로 고려했을 때 우리나라 여자 사망률은 코호트 효과를 고려한 PLAT 모형이 적절하다 볼 수 있을 것이다.

혼합효과 영과잉 포아송 회귀모형을 이용한 대전광역시 코로나 발생 동향 분석

김광희 ( Gwanghee Kim ) , 이은지 ( Eunjee Lee )
한국통계학회|응용통계연구  34권 3호, 2021 pp. 361-374 ( 총 14 pages)
5,400
초록보기
본 연구는 대전광역시에서 나타난 확진자 증가 현상을 분석하여 COVID-19의 확산을 방지할 대책 마련에 도움이 되고자 계획되었다. 확진자 증가의 원인이 시민들의 잦은 이동과 장기간 지속한 사회적 거리두기로 인한 피로와 방심에 있다고 보고, 각 행정동의 주별 확진자 수를 반응변수로, 생활 속 거리두기로 전환된 시점으로부터 흐른 시간, 행정동의 버스 하차 인원을 설명변수로 하여 이들의 관계를 모형화하였다. 행정동별 확진자 수가 주 단위로 반복측정 되었고, 포아송분포로 기대되는 0보다 더 많은 0이 관측될 수 있기 때문에혼합효과 영과잉 포아송 회귀모형을 적용하였다. 행정동의 성격에 따라 확진자 발생 동향이 다를 수 있어서서 서로 유사한 성격을 갖는 행정동을 군집화하여이를 범주형 설명변수로 사용하였다. 또한 버스 하차 인원의 효과가 행정동의 성격에 따라 달라질 수 있다는 점을 고려하여 두 변수 간의 교호작용항을 포함하였고 상대적으로 번화한 행정동에서 그 효과가 유의한 것으로 나타났다 (유의수준=0.1). 모형 적합 결과 인구수의 증가와 번화한 행정동이라는 요인, 그리고 버스 하차 인원의 증가가 확진자 수의 증가와 중요한 연관 관계를 가진다는 것을 보였다. 한편, 추정된 모형에 따르면 인구수와 버스 하차량이 고정되었을 때 번화한 집단의 확진자 수가 그렇지 않은 집단에 비해 훨씬 적을 것으로 기대되었는데, 이는 코로나 고위험 지역에 대한 시 차원의 강력한 대응이 효과를 발휘한 것으로 해석할 수 있다.

가중 문맥벡터와 X-means 방법을 이용한 변형 다의어스킵그램

정현우 ( Hyunwoo Jeong ) , 이은령 ( Eun Ryung Lee )
한국통계학회|응용통계연구  34권 3호, 2021 pp. 375-385 ( 총 11 pages)
5,100
초록보기
최근 자연어 처리 문제에서의 단어 임베딩은 아주 큰 주목을 받고 있는 연구 주제이며 스킵그램은 성공적인 단어 임베딩 기법 중 하나이다. 주변단어들 정보를 이용해서 단어들의 의미를 학습하여 단어 임베딩 벡터를 할당하며 텍스트 자료를 효과적으로 분석할 수 있게 한다. 그러나 벡터 공간 모델의 한계로 인해 기본적인 단어 임베딩 방법들은 모든 단어가 하나의 의미를 가지고 있다는 것을 가정한다. 다의어, 즉 하나 이상의 의미를 가진 단어가 실생활에서 존재하기 때문에 Neelakantan 등 (2014)은 군집분석 기법을 이용하여 다의어의 여러 의미들에 해당하는 의미 임베딩 벡터를 찾기 위해 MSSG (multi-sense skip-gram)를 제안했다. 본 논문에서는 MSSG의 통계적 성능을 개선시킬 수 있는 변형된 MSSG 방법을 제안한다. 먼저, 가중치를 활용한 가중문맥 벡터를 제안한다. 나아가, 군집의 수, 즉 다의어의 의미 수를 자료에서 자동적으로 추정해주는 x-means 방법을 활용한 알고리즘을 제안한다. 본 논문에서 수행한 실증자료를 기반한 모의실험에서 제안한 방법은 기존 방법에 비해 우수한 성능을 보여주었다.

랜덤 투영 앙상블 기법을 활용한 적응 최근접 이웃 판별분류기법

강종경 ( Jongkyeong Kang ) , 전명식 ( Myoungshic Jhun )
한국통계학회|응용통계연구  34권 3호, 2021 pp. 387-396 ( 총 10 pages)
4,500
초록보기
판별분류분석에서 널리 이용되는 k-최근접 이웃 분류 방법은 고정된 이웃의 수만을 고려하여 자료의 국소적 특징을 반영하지 못하는 한계가 있다. 이에 자료의 국소적 구조를 고려하여 이웃의 개수를 선택하는 적응 최근접이웃방법이 개발된 바 있다. 고차원 자료의 분석에 있어서는 k-최근접 이웃 분류를 사용하기 전에 랜덤 투영 기법 등을 활용하여 차원 축소를 수행하는 것이 일반적이다. 이렇게 랜덤 투영시킨 다수의 분류 결과들을 면밀히 조합하여 투표를 통해 최종 할당을 하는 기법이 최근 개발된 바 있다. 본 연구에서는 고차원 자료에서의 분석을 위해 적응 최근접이웃방법과 랜덤 투영 앙상블 기법을 조합한 새로운 판별분류 기법을 제안하였다. 제안된 방법은 기존에 개발된 방법에 비해 분류 정확성 측면에서 더 뛰어남을 모의실험 및 실제 사례 분석을 통해 확인하였다.

평균-분산 가속화 실패시간 모형에서 벌점화 변수선택

권지훈 ( Ji Hoon Kwon ) , 하일도 ( Il Do Ha )
한국통계학회|응용통계연구  34권 3호, 2021 pp. 397-411 ( 총 15 pages)
5,500
초록보기
가속화 실패시간모형은 로그 생존시간과 공변량간의 선형적 관계를 묘사해 준다. 가속화 실패시간모형에서 생존시간의 평균뿐만 아니라 변동성에도 영향을 미치는 공변량 효과를 추론하는 것은 흥미가 있다. 이를 위해 생존시간의 평균뿐만 아니라 분산을 모형화 하는 것이 필요하며, 이러한 모형을 평균-분산 가속화 실패시간모형이라 부른다. 본 논문에서는 벌점 가능도함수를 이용하여 평균-분산 가속화 실패시간모형에서 회귀모수에 대한 변수선택 절차를 제안한다. 여기서 벌점함수로서 LASSO, ALASSO, SCAD 그리고 HL (계층가능도)와 같은 네 가지 벌점함수를 연구한다. 제안된 변수선택 절차를 통해 중요한 공변량의 선택 뿐만 아니라 회귀모수의 추정을 동시에 제공할 수 있다. 제안된 방법의 성능은 모의실험을 통해 평가하고, 하나의 임상 예제자료를 통해 제안된 방법을 예증하고자 한다.

통합 칼리브레이션 가중치 산출 비교연구

박인호 ( Inho Park ) , 김수진 ( Sujin Kim )
한국통계학회|응용통계연구  34권 3호, 2021 pp. 413-424 ( 총 12 pages)
5,200
초록보기
이단추출은 개체와 집락 단수준별 모집단 특성을 함께 추정할 수 있게 해준다. 단위수준별 보조정보가 함께 주어질 때, 단위수준별 정보 및 가중치 구성을 통합적으로 고려한 칼리브레이션 가중치를 산출한다면 단위수준별 특성은 물론 수준간의 다변량적 특성도 적절히 반영할 수 있을 것이다. 본 연구는 Estevao와 Särndal (2006)과 Kim (2019)이 고려한 통합 칼리브레이션 가중치 산출 방법에 대해 살펴보았다. 간단한 모의실험을 통해 기존의 통합 칼리브레이션 가중치 산출방법의 효율성을 비교하였다. 이 중 복합보조정보를 개체화한 후 단일단계의 칼리브리이션 조정으로 가중치를 산출하되 집락가중치가 집락 내 개체가중치 평균이 되도록 정의하는 방법과 단위수준별 보조정보를 이용한 수준별 칼리브레이션 조정을 상호 반복적으로 수행하되 집락가중치가 집락 내 개체가중도치 평균이 되도록 하는 방법이 조정전 가중치의 변동량을 크게 늘리지 않고도 수준간 다변량적 특성을 잘 반영할 수 있음을 확인할 수 있었다. 집락과 개체의 상호간 보조정보에 대한 총합추정의 적합도 측면에서 매우 양호하였고, 칼리브레이션 조정에 포함되지 않는 조사특성들의 총합추정에 대한 상대편향 및 상대 평균 제곱근 오차가 작게 나타났다.

Mann-Kendall 비모수 검정과 Sen's slope를 이용한 최근 40년 남한지역 계절별 평균기온의 경향성 분석

진대현 ( Dae-hyun Jin ) , 장성환 ( Sung-hwan Jang ) , 김희경 ( Hee-kyung Kim ) , 이영섭 ( Yung-seop Lee )
한국통계학회|응용통계연구  34권 3호, 2021 pp. 425-433 ( 총 9 pages)
4,500
초록보기
범지구적 이상기후의 잦은 출현으로 기상 변화에 대한 관련 연구가 활발히 진행되고 있지만, 장기간 축적된 기상자료를 이용한 경향성 분석 연구는 부족하였다. 본 연구에서는 비모수적 분석방법을 이용해 40년간 종관기상관측장비(ASOS)로 부터 축적된 기온 시계열 자료의 경향성을 분석하였다. 남한지역의 연평균 기온과 계절별 평균기온 시계열 자료에 대한 Mann-Kendall 검정 결과 상승 경향성이 존재하는 것으로 나타났다. 또한 Pettitt 검정을 적용해 탐색된 변동점을 전후로 경향성의 정도를 파악할 수 있는 Sen’s slope를 계산한 결과, 변동점 이후의 최근 자료에서 기온의 상승 경향성이 더욱 큰 것을 확인하였다.
1 2 >