최근 기계학습(machine learning) 기술의 발전으로 빅데이터 분석이 각광을 받고 있다. 네트워크 연결성의 증대로 방대한 양의 데이터의 수집이 가능해지면서 기계학습 기술에 기반이 되는 양질의 빅데이터 수집이용이해진 까닭이다. 기계학습이 효과적이려면 이종기관에서 수집된 데이터들을 민감한 개인정보를 포함하여 병합하고 활용하여야 하는데 이 과정에서 개인정보유출의 문제가 심각하게 대두되고 있다.
본고에서는 개인정보보호와 빅데이터 활용이라는 상충된 목표를 달성할 수 있는 정보기술적 해법으로 암호화된 데이터상에서 복호화 없이 기계학습을 수행하는 동형기계학습(homomorphic machine learning) 기술을 소개한다. 동형암호(homomorphic encryption)는 평문을 암호화한 상태에서도 복호화 없이 컴퓨터가 수행하는 모든 계산이 가능한 암호기술로서 특히 양자컴퓨터 시대에도 안전한 최신암호기술이다. 동형암호기술을 적용하면 민감한 개인정보를 포함한 데이터분석에서도 개인정보 유출이나 데이터손실 없이 기계학습을 수행할 수 있다. 구체적으로는 동형기계학습의 포괄적 이해를 위해 동형암호와 기계학습 기술을 최소한의 수학적 묘사로 개념적으로 소개하도록 한다. 또한 최근 연구결과들을 토대로 실용화에 가장 큰 걸림돌로 여겨지고 있는 동형기계학습의 효율성을 분석하여 실용화 가능성을 타진해본다. 또한 민감한 개인정보를 기반으로 한 데이터분석이 필요한 대표적 사례로 신용정보계산에 이를 적용하여 암호화된 개인정보를 기반으로 개인정보 유출의 위험 없이 신용점수를 계산하는 과정을 제시한다.
Recently, as machine learning research has been developed, big data analysis gets the limelight. This is because of the increased network connectivity which makes it possible to collect vast amounts of high-quality data as the ingredients of machine learning. Data including sensitive privacy from multiple institutes should be merged and utilized for effective machine learning, but the process can cause a critical problem of private data leakage.
This work proposes ‘Homomorphic Machine Learning’ as an information technology solution for a contradiction problem between preserving privacy and making full use of data, which performs machine learning with encrypted data without decryption. Homomorphic encryption is cutting-edge cryptographic technology which enables any operations on computers with encrypted data. It is secure against quantum computer attack. In the situation of data analysis with sensitive private data using homomorphic encryption, machine learning can be performed with no worry of privacy leakage or data loss.
Specifically, this work introduces concepts of homomorphic encryption and machine learning with minimal mathematical description for understanding homomorphic machine learning. Also, based on recent works, we investigate possibility of commercialization by analyzing effectiveness of homomorphic encryption which is major obstacle for commercialization.
Credit rating requires analysis of private data. As major application, this work shows process of calculating credit rating from encrypted private data without danger of private data leakage.