건강보험 빅데이터를 활용한 생물학적 나이 추정 모형 비교 연구
Abstract
Objectives
The objective of this study is to estimate and compare indicators facilitating objective health assessment by utilizing biological age, a fundamental component of health metrics, through various estimation methods.
Methods
In this study, data from the National Health Insurance Service health examinations were utilized, and various methods for estimating biological age were employed. These methods include multiple linear regression, principal component analysis (PCA), and Klemera-Doubal method (KDM), which are based on statistical approaches, as well as RF and XGB, which are based on machine learning. In this study, ANOVA and regression were performed using the SAS 9.4 program.
Results
Among statistical methods, the standard deviation for KDM's BA-CA is the smallest at 8.6894, while machine learning methods exhibit similar values of approximately 5 for both approaches. Regarding disease diagnosis accuracy, KDM demonstrates the highest accuracy rates in hypertension and dyslipidemia, while PCA excels in diabetes diagnosis.
Conclusions
This study can serve as a valuable health indicator, shedding light on the extent of aging within a population.
Key words: National Health and Insurance Service, Biological age, Health screening
서 론
전 세계는 65세 이상 인구가 전체 인구의 7%를 차지하는 고령화 사회에 접어들고 있다[ 1]. 통계청에 따르면 한국은 이미 2000년 7%로 고령화 사회, 2017년 14.2%로 고령 사회에 진입했으며 2022년은 18.0%로 20% 이상인 초고령화 사회와 가까워졌다[ 2]. 이는 출산율이 감소하고 전체 인구의 증가 폭보다 65세 이상 인구의 증가 폭이 커진 영향으로 볼 수 있다. 평균 수명과 기대수명이 증가하면서 65세 이상 인구가 증가하여 과거에는 단순하게 오래 사는 장수에 관심이 많았지만, 현대 사회에서는 건강하게 오래 사는 것에 대한 관심이 증가하였다.
기대수명은 출생한 아이에게 기대되는 평균 생존 기간으로 평균수명이라고도 한다. 기대수명은 연령별 인구수와 10만 명당 사망률을 활용하여 계산하게 된다. 한국의 기대수명은 2017년 82.7세에서 2021년 83.6세로 0.9세 증가하였다[ 3, 4]. 이는 한국뿐만 아니라 전 세계적으로 기대수명이 증가하고 개인 건강에 대한 관심이 자연스럽게 증가하고 있다. 자신의 현재 건강 상태를 확인하고 싶은 경우 일상생활에서의 개인이 느끼는 증상을 통해 주관적으로 판단하거나 건강검진의 수치들을 통해 확인하게 된다. 건강검진 수치의 경우 각 수치에 대한 개별적인 결과만 알 수 있으며 현재 사용되고 있는 건강지표는 정상 수치 안에서의 차이, 비정상 수치 안에서의 차이에 따른 정도를 판단하기 어렵다. 현재 사용되고 있는 건강지표는 대상이 되는 집단 또는 개인의 건강 정도를 수량적으로 표현하기 위한 기준으로 체력 테스트, 지능 테스트 등이 고려되고 있지만, 개인의 노화 진행 정도를 판단하는 지표로 사용하기에는 어려움이 있다. 건강지표 중 노화와 관련된 지표를 건강 노화 지표라고 하는데 이는 어떤 사람이 건강한 사람인지를 판단할 수 있어야 한다.
건강 노화 지표는 고전적으로 연대기적 나이(chronological age, CA)가 사용되었다[ 5]. 연대기적 나이는 생년월일을 기준으로 1년이 지날 때마다 모두가 동일하게 오르는 나이이다. 대부분 연대기적 나이에 따라 노화가 시작되거나 진행되고 있다고 판단한다. 하지만, 연대기적 나이는 모두가 같은 기준에 따라 증가하기 때문에 연대기적 나이가 적다고 해서 건강한 사람이라고 판단하기 어렵다.
반면에, 생물학적 나이(biological age, BA)는 사람의 성장 발육 정도와 건강 상태, 몸의 전반적인 기능 상태에 따라 결정하는 나이를 뜻한다[ 6]. 이 생물학적 나이는 개인마다 가지는 특성과 질병 유무, 건강 수치 등을 고려한 나이로 사람마다 노화의 속도가 다른 것을 반영하여 같은 연대기적 나이를 가지더라도 건강 상태에 따라 다른 값을 가지게 된다.
개인의 건강 상태와 다양한 정보를 반영한 생물학적 나이는 건강 노화 지표로 사용하기에 적합하여 건강 노화 지표 개발의 하나로 생물학적 나이를 추정하기 위한 많은 연구가 진행되고 있다.
Costa and McCare [ 7, 8]는 연대기적 나이와의 상관관계가 있는 노화 바이오마커(biomarker)를 선택해야 한다고 주장하였다. 이는 노화 요인을 연령에 따라 가지는 특징이나 분포가 다르며 그에 따른 변화를 설명해야 하는 것을 의미한다. 하지만 노화 바이오마커를 선택할 때 연대기적 나이와의 연관성만 고려하는 것은 합리적이지 않다[ 9]. 모든 노화 바이오마커가 연대기적 나이와 상관관계를 가지는 것이 아니기 때문에 변수들의 분포와 특징을 고려하여야 한다[ 10]. 이러한 점을 반영하여 많은 연구에서는 새로운 노화 지표를 발견하기 위하여 노력하였다[ 11].
Klemera and Doubal [ 12]은 기존 모델인 다중선형회귀분석(multiple linear regression, MLR), 주성분분석(principal component analysis, PCA) 등을 사용하여 생기는 선형 회귀의 문제점을 개선하고자 생물학적 나이를 추정하는 새로운 방법을 개발하였다[ 12]. Jia et al. [ 13]은 MLR, PCA, Hochschild, Klemera-Doubal method (KDM) 등 4가지 추정 방법 간의 장단점을 비교하였다. 하지만 해당 추정 방법들을 활용한 사례가 없어 장단점의 결과를 직접적으로 확인할 수 없었다. Buslova [ 14]는 생물학적 나이를 추정하기 위하여 MLR, PCA, KDM 방법뿐만 아니라 KDM+PCA와 같이 두 가지 방법 결합을 시도하였다. 또한, 연대기적 나이에 따라 영향을 미치는 바이오마커가 다를 것이라고 판단하여 Group MLR을 통해 연령별로 적합한 바이오마커를 선택하여 생물학적 나이를 추정하였다. 하지만, 해당 연구의 경우 러시아인으로 구성된 연구 집단으로 75%가 여성 참가자이기 때문에 한국인의 건강지표로 활용하기 어렵다. Bae et al. [ 6]은 국민건강보험공단의 개인 검진 데이터를 활용하여 대사 증후군 생물학적 나이(metabolic syndrome-biological age, MS-BA) 모델을 만드는 연구를 진행하였다. 대사 증후군을 진단하는 데 필요한 검사 결과를 사용하여 대사 증후군의 위험도를 알리는 MS-BA를 MLR, PCA 두 방법을 사용하여 추정한다. 하지만 대사 증후군이라는 특정 질병에 대한 생물학적 나이를 나타내며 대사 증후군 질병을 진단하는 데 필요한 바이오마커만 사용하여 개인의 전반적인 건강지표로 활용하기에는 부족하다.
이렇듯 많은 선행 연구에서 개인 건강지표로 활용하기 위하여 심장나이, 대사나이, 개인 노화 등을 예측하고 질병을 예방하기 위한 생물학적 나이를 추정하였다. 생물학적 나이는 다양한 방법을 통해 추정되었다. 하지만, 대부분의 연구는 추정하기 위한 방법론에 대한 연구이며, 실제 데이터를 통한 연구의 경우 한국인의 특성이 반영된 데이터를 사용하지 않아 활용하기 어렵다. 그중 한국인의 특성을 반영한 연구가 있지만, 대사 증후군이라는 특정 질병을 위한 지표만 존재하여 개인의 전반적인 건강 상태를 알려주는 건강지표로는 활용하기 어렵다.
따라서 본 연구에서는 국민건강보험공단에서 주관하는 대한민국 국민들의 건강검진 데이터를 사용하여 한국인의 특성에 맞는 생물학적 나이를 추정하여 추정 방법에 따른 결과를 비교할 것이다. 생물학적 나이는 통계적 방법과 기계 학습을 기반으로 한 추정 방법을 사용할 것이며, 통계적 방법의 경우 MLR, PCA, KDM, 기계 학습의 경우 Random Forest (RF), Extreme Gradient Boosting (XGB)을 적용하였다.
연구 방법
연구 집단
우리나라는 단일 보험 체계를 운용하고 있는 국가로 국민건강보험공단이 관리하고 있으며 전 국민의 건강보험 가입이 의무화되어 있어 병원에서 진료를 보면 해당 기록이 쌓이고 국민의 자격 관리를 위하여 다양한 개인 정보를 포함하고 있다. 또한, 진료뿐만 아니라 전 국민을 대상으로 2년마다 1회 건강검진을 실시하여 결과를 저장한다. 본 연구에서는 국민건강보험공단 건강검진 빅데이터 중 의료 및 건강검진 데이터베이스를 사용하였다.
바이오마커
바이오마커는 생물학적으로 건강한 사람과 건강하지 않은 사람을 객관적으로 측정, 평가할 수 있는 지표로써 체중, 키, 혈압, 콜레스테롤, 헤모글로빈 등이 있다. 그 밖에도 염색체 끝에 있는 뉴클리오타이드(nucleotide)인 텔로미어(telomere)의 길이, 유전자 발현을 제어하는 DNA 메틸화 등 유전적 정보를 바이오마커로 사용하여 생물학적 나이를 추정하기도 한다. 또한, 빅데이터가 발달하면서 건강검진 수치, 의료 이용 기록 등 많은 정보를 바이오마커로 사용하여 생물학적 나이를 추정하며, 본 연구에서는 일반 건강검진의 결과를 바이오마커 건강검진 결과의 수축기 혈압, 이완기 혈압, 콜레스테롤, 키, 몸무게 등 총 16개를 사용하였다.
Figure 1은 추정 방법별 바이오마커 선택 과정에 대한 설명이다. MLR은 모델에 사용할 바이오마커를 선택하기 위하여 다중공선성, 바이오마커 분포의 비선형성, 설명이 명확하지 못한 변수들을 차례로 제거하였다. 그 결과 최종적으로 선택된 바이오마커는 남성과 여성 모두 7개이며 6개의 동일한 바이오마커와 성별 특징을 보이는 하나의 바이오마커가 선택되었다. 주성분 분석은 고유치를 계산하여 1보다 큰 주성분수를 확인하여 주성분 값을 모형변수로 활용하였다. 그 외 KDM, RF, XGB는 변수 선택 과정 없이 16개 바이오마커를 모두 사용하여 모형을 추정하였다.
Figure 1.
Biomarker selection process for estimation methods. MLR, multiple linear regression; PCA, principal component analysis; KDM, Klemera-Doubal method; RF, random forest; XGB, extreme gradient boosting; BMI, body mass index; DBP, diastolic blood pressure; GGT, gamma-glutamyl transferase; LDL, low density lipoprotein; TC, total cholesterol; SGPT, serum glutamic-pyruvic transaminaes; HB, hemoglobin; HGHT, height; WGHT, weight; TG, triglycerides; CRTN, creatinine; GGT, Gamma-glutamyltransferas.
통계적 추정 방법
통계적 방법을 기반으로 한 모형은 MLR, PCA, KDM이 있다. 통계 분석 방법을 사용하여 생물학적 나이를 산출할 경우 정해진 분포나 가정을 통해 실패 확률을 줄이는 것이 목적으로 단순성을 추구하고 결과에 대한 신뢰도가 중요하다. 또한 통계적 방법의 경우 예측하는 수식이 직접적으로 나타나기 때문에 각 파라미터(parameter)가 결과에 어떠한 영향을 끼치는지 확인할 수 있다.
MLR은 생물학적 나이를 예측하는 가장 일반적인 방법이다[ 15- 17]. 생물학적 나이는 연대기적 나이와 바이오마커들의 상관관계에 의해 결정되는데, 이에 따라 선형성을 가지게 된다. 이러한 이유로 연대기적 나이를 노화 바이오마커로 사용해도 되는지에 대한 기준이 명확하지 않다. 또한, 양극단에서 생물학적 나이를 왜곡하고 개인에 따른 노화 속도의 차이를 설명하지 못한다는 단점이 있다[ 18- 20]. 생물학적 나이 는 BA^iMLR 를 사용하여 예측하고 연대기적 나이를 종속변수, 바이오 마커들을 독립변수로 하여 바이오마커들과 연대기적 나이의 상관관계에 의해 결정된다.
여기서, i는 개인, j는 바이오마커, p는 선형 회귀에서 사용된 바이오마커의 개수를 뜻한다.
PCA는 차원 축소 기법의 하나로, 데이터의 분산을 최대한 보존하면서 고차원 공간의 데이터들을 저차원 공간으로 변환한다. 데이터의 정보를 최대한 보존하면서 기존의 변수들을 조합하여 서로 연관성이 없는 새로운 변수를 만들어 차원을 줄인다[ 21].
여기서, i는 개인, k는 주성분,p* 는 선택된 주성분의 개수, bk^는 k번째 주성분의 b1값,(pc)ik 는 i번째 개인의 바이오마커 값으로 계산된 k번째 주성분 값을 뜻한다.
PCA는 MLR에서 파생되었으며 양극단의 과대 또는 과소 평가된 생물학적 나이의 축소 효과를 관찰할 수 있다[ 18]. 일부 연구자들은 생물학적 나이의 최종 효과를 제거하기 위하여 Z를 추가하여 최종 생물학적 나이를 수정하였다[ 22].
여기서,mBA^iPCA 는 수정된 생물학적 나이를 뜻하며, CAi는 개인의 연대기적 나이,x¯CA 는 참가자들의 연대기적 나이 평균, r은 연대기적 나이와 생물학적 나이의 상관계수이다.
PCA는 분산의 최적화를 설명하기 위하여 상관관계가 없는 변수는 작게 사용하고, 높은 변수는 많게 사용하여 회귀에서의 왜곡 및 노화 속도의 불연속성과 같은 MLR의 통계적 결함을 방지한다[ 18]. 하지만 PCA 역시 선형 회귀를 기반으로 연대기적 나이와의 상관관계를 통해 바이오마커를 적용하기 때문에 MLR의 단점을 완벽하게 해결할 수 없다.
KDM은 모든 바이오마커의 n차원 공간 내에서 n회귀선과 n바이오마커 포인트 사이의 거리를 최소화하는 것으로 생물학적 나이를 추정 한다. 최적 추정치를 계산하기 위하여BA^iKDM 과 mBA^iKDM 를 제시하 였다.
여기서, i는 개인, j는 바이오마커, p는 바이오마커의 개수, b0j 와 b1j 는 각 바이오마커와 연대기적 나이의 단순 회귀 분석을 통한 기울기와 절편, sj 는 생물학적 나이와 바이오마커 간의 평균 제곱 오차의 제곱근 값을 구해야 하지만, 생물학적 나이를 알 수 없어 연대기적 나이와의 평균 제곱 오차의 제곱근 값을 사용하였다[ 23].
여기서, mBA^iKDM 는 BA^iKDM 의 값에 개인의 연대기적 나이와 sBA^KDM2값을 사용하여 수정된 생물학적 나이이다. sBA^KDM2 은 바이오마 커별 상관계수 p개의 가중평균으로 정의한 rKDM, 연구 참가자 수 n, 참 가자들의 연대기적 나이 최댓값 CAmax, 최솟값 CAmin 을 사용하여 구 할 수 있다. KDM은 MLR, PCA에 비해 복잡한 계산식을 가지지만 선형 회귀를 기반으로 하는 방법의 단점들을 보완할 수 있다.
기계 학습 추정 방법
기계 학습은 인공지능(artificial intelligence, AI)의 하위 집합으로 데이터를 기반으로 학습하고 경험하여 예측의 정확도를 개선한다. 이러한 방법은 예측의 정확성을 높이는 데 목적이 있어 통계적 기법과 달리 신뢰도나 가정의 중요성은 낮아지고 여러 파라미터를 사용하여 예측을 수행한다. 또한, 통계적 기법 중 선형 회귀를 기반으로 한 MLR의 다중공선성과 PCA의 차원 축소 등으로 인한 정보가 소실되는 문제점을 개선하여 보완할 수 있지만, 사용되는 수식을 확인할 수 없어 각 파라미터가 미치는 영향력을 확인할 수 없다.
RF는 Breiman [ 24]이 2001년 발표한 알고리즘으로 기계 학습에서 흔히 사용되며 의사결정나무(decision tree)가 기본이며 여러 나무가 모여 하나의 결과를 만드는 앙상블(ensemble) 기법이다. 랜덤 노드 최적화와 배깅(bagging)을 결합한 방법으로 상관관계가 없는 다수의 트리를 만드는 것이다. RF는 다양한 문제에 대해 예측 모델을 만들 수 있고, 과적합을 방지하는 데 도움이 되며 예측뿐만 아니라 분류의 문제에서도 사용이 가능하다.
RF는 회귀에 사용할 경우 회귀 모델을 생성하는데 이때 다수의 결정 트리로 구성된다. 각 결정 트리는 학습 데이터에서 무작위로 추출된 부트스트랩(bootstrap) 샘플로 학습되는데 이 과정으로 인해 다양성을 확보하고 과적합을 줄일 수 있으며 무작위로 추출된 일부 특징만 사용하여 데이터를 분할한다. 해당 모델을 바탕으로 학습 시에는 각 결정 트리를 독립적으로 학습하며 데이터의 다양한 측면을 고려한다. 각 결정 트리가 진행되고 나면 결과를 종합하여 예측 모델을 구축하게 된다. 또한, 모델의 다양한 하이퍼파라미터 튜닝(hyperparameter tuning)으로 모델의 성능을 향상할 수 있으며 과적합의 위험성을 줄여주고 각 변수의 기여도를 평가할 수 있다는 장점이 있지만 시간이 많이 소요되고 계산 자원이 많이 필요하다는 단점이 있다.
Chen and Guestrin [ 25]에 의해 2016년 8월에 소개된 XGB은 빠른 속도와 확장성을 장점으로 많은 데이터 분석 경진대회의 우승 알고리즘으로 활용되어 왔다. XGB는 여러 개의 분류, 회귀 나무를 묶어 오차를 줄이는 부스팅 기법을 활용한 의사결정나무 계열의 알고리즘이다[ 26]. XGB는 나무의 복잡도를 통제하여 학습 손실을 최소화하고 과적합을 방지하는 방식으로 모델을 생성한다.
여기서, n은 연구 참가자 수, l은 yi 와 y^i 의 차이를 측정하는 손실함수, k는 나무의 수, Ω 은 과적합을 방지하기 위한 모델의 정규화 함수를 뜻한다. XGB는 Gradient Boosting 트리 알고리즘에서 유명하고 효율적인 기계 학습 오픈 소스 구현이다. Gradient Boosting은 더욱 단순하고 약한 모델 세트의 추정치의 앙상블을 결합하여 대상 변수를 정확하게 예측하는 지도 학습 알고리즘이다. XGB는 Gradient Boosting 방법과 비교하였을 때 더 빠른 수행시간을 가지며, 자체 과적합 교제 기능으로 강한 내구성을 지닌다. 또한 분류와 회귀영역에서 뛰어난 예측 성능을 발휘할 수 있으며 다양한 하이퍼파라미터를 튜닝하여 사용 데이터에 맞는 모델을 만드는 것에 용이하다. XGB는 앞의 RF와 달리 부스팅 앙상블로 구현되어 예측 모델에 대한 에러(error)를 줄이는 방식으로 진행된다. 또한, XGB는 병렬 학습이 지원되어 RF보다 더 빠른 학습이 가능하다는 장점이 있다.
연구 결과
일반적 특성
Table 1은 2017년 건강검진 참여 12,691,322명 중 Bae et al. [ 16]에서 제안한 이상치 기준을 적용하여 일부 대상자를 제외한 후 해당 바이오마커 값의 평균과 표준편차를 정리하였다. 최종 대상자는 10,593,549명(49.79±13.19세)이며 남자는 5,603,099명(48.48±13.09세), 여자는 4,990,450명(51.25±13.14세)이다.
Table 1.
Outlier criteria and baseline characteristics of the study population
Variables |
Outlier criterion |
Total (n=10,593,549) |
Male (n=5,603,099) |
Female (n=4,990,450) |
Under |
Over |
Age (y) |
- |
- |
49.79±13.19 |
48.48±13.09 |
51.25±13.14 |
BMI (kg/m²) |
15 |
35 |
24.04±3.19 |
24.61±2.99 |
23.39±3.27 |
SBP (mmHg) |
80 |
160 |
121.56±13.34 |
123.69±12.31 |
119.16±14.02 |
DBP (mmHg) |
50 |
100 |
75.56±9.12 |
77.21±8.75 |
73.71±9.18 |
FBS (mg/dL) |
25 |
180 |
98.00±15.75 |
99.86±16.34 |
95.92±14.79 |
SGOT (IU/L) |
- |
85 |
24.50±8.79 |
25.87±9.02 |
22.95±8.25 |
SGPT (IU/L) |
- |
100 |
23.80±13.85 |
27.67±14.94 |
19.44±11.00 |
GGT (IU/L) |
- |
200 |
31.78±26.87 |
40.68±30.56 |
21.78±17.20 |
WC (cm) |
- |
- |
81.03±9.13 |
84.70±7.82 |
76.90±8.72 |
TG (mg/dL) |
- |
500 |
124.50±73.16 |
140.05±79.58 |
107.04±60.63 |
TC (mg/dL) |
50 |
310 |
194.73±34.89 |
193.69±34.84 |
195.90±34.91 |
HDL (mg/dL) |
20 |
100 |
56.66±13.90 |
52.77±12.63 |
61.03±13.95 |
LDL (mg/dL) |
40 |
200 |
113.34±31.62 |
113.41±31.48 |
113.38±31.77 |
Creatine (mg/dL) |
0.4 |
2 |
0.85±0.20 |
0.94±0.17 |
0.78±0.15 |
GFR (mL/min) |
- |
500 |
91.93±20.99 |
90.94±19.38 |
93.05±22.6 |
HB (g/dL) |
10 |
18 |
14.26±1.46 |
15.21±1.08 |
13.18±1.00 |
생물학적 나이
MLR의 경우 다중공선성, 비선형성, 설명 결과가 명확하지 못한 바이오마커를 제거하여 총 16개의 바이오마커들 중 남성과 여성 각각 7개의 바이오마커가 선택되었다. 성별에 따른 바이오마커 분포의 차이로 인해 6개의 동일한 바이오마커와 서로 다른 바이오마커 1개를 사용하 여 남자는 BA^MMLR, 여자는 BA^FMLR 를 추정하였다.
여기서, X1 은 수축기혈압, X2 는 공복혈당, X3 은 AST,X4 는 허리둘레, X5 는 고밀도콜레스테롤, X6 은 사구체여과율, X7 은 헤모글로빈, X8 은 트리글리세라이드이다. 7개의 변수들 중 남성은 헤모글로빈(기울기: −3.5561), 여성은 허리둘레(기울기: 0.2442)가 생물학적 나이에 가장 큰 영향을 끼치게 된다.
PCA에서는 남성과 여성 각각 7개의 선택된 주성분을 사용하여 회귀 분석을 진행하여 아래와 같은 식으로 추정하였다. PCA를 사용하 여 나온 BA^PCA 식은 BA^MPCA,BA^FPCA 와 같다. 하지만, BA^PCA 는 회귀 분석의 양극단을 과대, 과소 추정하는 경향이 있어 이를 제거하기 위 하여 Z 값을 더해 보정하였다. 그 결과는 남성은 mBA^MPCA, 여성은 mBA^FPCA를 추정하였다.
KDM은 앞서 소개한 BA^KDM 와 mBA^AKDM 를 구하는 식을 활용하여 mBA^MKDM 와 mBA^FKDM 를 추정하였다. 여기서, x1 은 키, x2 는 몸무게, …,x17 은 헤모글로빈으로 각 바이오마커들을 통해 계산된 값이다.
일반적으로 기계 학습은 예측 정확도를 통해 데이터에 맞는 모델로 튜닝을 진행한다. 하지만 앞서 언급한 바와 같이 생물학적 나이의 경우 정해진 정답이 없어 정확도를 통한 비교가 어려워 잔차 분포와 만성질환을 예측하는 질병 예측률을 활용하여 최적의 파라미터를 선정하였다. 기계 학습은 통계적 기법과 달리 중간 과정을 설명할 수 없는 구조이기 때문에 모형이 나타내는 수식을 확인할 수 없다.
추정 방법에 따른 모델 비교
Table 2는 2017년 데이터를 사용하여 만든 모델을 2016년 데이터에 적용한 결과이며, 추정 방법에 따른 생물학적 나이와 연대기적 나이의 잔차 평균과 표준편차 및 분위수를 분석하였고 노화로 인한 대표적인 만성질환(당뇨, 고혈압, 이상지지혈증)의 진단 정확도(c-index)를 분석하였다. 그 결과 평균과 표준편차 값은 MLR 0.25±11.07, PCA 0.13±6.45, KDM 0.07±8.69, RF −0.31±5.10, XGB −0.21±5.15로 분석되었고, 분위수 분석결과 MLR −25.45 to 23.37, PCA −15.20 to 16.16, KDM −15.02 to 20.04, RF −14.59 to 15.35, XGB −14.22 to 15.34 순으로 좁은 범위를 나타내는 것으로 분석되었다. 진단 정확도 분석 결과 당뇨는 PCA에서 0.793으로 가장 높은 정확도를 보였고, 고혈압은 KDM이 0.808로 가장 높은 정확도를 보였고, 마지막으로 이상지질혈증은 KDM이 0.776으로 가장 높은 정확도를 보였다.
Table 2.
Comparison of estimation methods by mean±SD and percentiles
Methods |
Mean±SD |
Percentiles |
Chronic diseases |
1% |
25% |
50% |
75% |
99% |
DM |
HTN |
DL |
MLR |
0.25±11.07 |
-25.45 |
-7.40 |
0.54 |
8.30 |
23.37 |
0.767 |
0.749 |
0.720 |
PCA |
0.13±6.45 |
-15.20 |
-4.05 |
0.10 |
4.24 |
16.16 |
0.793 |
0.801 |
0.771 |
KDM |
0.07±8.69 |
-15.02 |
-3.57 |
-0.05 |
3.51 |
20.04 |
0.787 |
0.808 |
0.776 |
RF |
-0.31±5.10 |
-14.59 |
-2.34 |
-0.56 |
1.01 |
15.35 |
0.765 |
0.792 |
0.767 |
XGB |
-0.21±5.15 |
-14.22 |
-3.07 |
-0.57 |
2.19 |
15.34 |
0.769 |
0.793 |
0.769 |
Figure 2는 각 추정 방법별 생물학적 나이와 연대기적 나이의 산점도이며 직선은 산점도 바탕으로 추정한 회귀선을 분석하였다. 통계적 방법을 기반으로 한 MLR, PCA, KDM은 추정의 범위가 연대기적 나이와 상관없이 음수 값부터 120세까지 나타난다. 회귀선의 기울기는 MLR이 가장 작으며 PCA, KDM의 기울기는 비슷하지만 KDM이 기울기 주변의 데이터 분포 범위가 더 넓다. 기계 학습으로 추정한 RF와 XGB는 비슷한 결과를 나타낸다. 추정된 생물학적 나이의 범위가 연대기적 나이의 범위와 비슷하다. 또한, 분산이 작아 회귀선 주변으로 많은 데이터가 분포해 있다. 이러한 분포는 앞서 설명한 목표 범위의 결과와 비교해 볼 수 있다. 잔차의 분포에서 과대, 과소 추정의 경향이 있던 MLR은 나이가 적을수록 과대 추정, 나이가 많을수록 과소 추정하는 경향으로 인해 기울기가 작은 것을 확인할 수 있다.
Figure 2.
Scatter plots based on (A) MLR, (B) PCA, (C) KDM, (D) RF, (E) XGB. MLR, multiple linear regression; PCA, principal component analysis; KDM, Klemera-Doubal method; RF, random forest; XGB, extreme gradient boosting.
Figure 3은 추정 방법별 밀도 함수로 Y축은 해당 분포에 포함될 확률을 뜻한다. 기계 학습을 기반으로 한 RF와 XGB가 첨도가 가장 큰 분포를 가지고 있다. 반면, 통계적 기법의 경우 PCA와 KDM은 기계 학습과 비슷한 분포를 가지지만 MLR은 첨도가 가장 작은 분포를 가진다. 또한, 해당 분포의 2σ 값을 알 수 있는데 2σ는 전체 분포의 95.5%를 포함하고 있는 결과로 데이터의 분포를 파악하고 데이터의 변동성을 가늠할 수 있는데 앞서 언급한 목표 범위를 활용하여 2σ 값을 평가하면, 기계 학습의 두 방법은 약 ±10, PCA는 약 ±12, KDM은 약 ±13의 값을 가져 범위 안에 포함되지만, MLR은 약 ±22로 범위 안에 포함되지 않아 과대, 과소 추정의 경향이 있어 해석에 유의해야 한다.
Figure 3.
Distribution of differences estimated by various methods. MLR, multiple linear regression; PCA, principal component analysis; KDM, Kl-emera-Doubal method; RF, random forest; XGB, extreme gradient boosting.
고 찰
본 연구는 생물학적 나이를 추정하는 전통적인 통계적 방법과 기계 학습 방법들의 단순 비교를 통해 각 모형의 장단점을 설명하고자 연구를 진행하였다. 다만, 모형의 정확도를 측정하는 과정에서 측정자의 생물학적 나이 정답을 알 수 없는 한계가 있기 때문에 기존 통계적 기법을 활용한 모형비교는 어려워 분포의 퍼진 정도와 연대기적 나이와 생물학적 나이의 차이값이 극대, 극소 추정량의 정도 그리고 만성질환의 진단력 정도로 확인해 보았다. 더욱이 모형의 효율성을 비교할 때에는 연대기적 나이와 생물학적 나이의 차이값을 이용하여 연대기적 나이 대비 얼마나 건강한지 혹은 건강하지 않은지를 표현해 주는 지표로 생물학적 나이를 활용하였다. 이렇게 한 이유는 같은 생물학적 나이 60살이라고 하더라도 연대기적 나이가 40살인데 생물학적 나이가 60으로 나온 것과 65살인데 생물학적 나이가 60으로 나온 것은 에이징 효과를 고려하여 동일한 수준의 건강이라고 판단하는 것이 아니라 40살의 건강수준이 동일한 연령대의 건강수준에 비해 많이 좋지 않다는 것을 의미한다. 그래서 분포의 변동성을 측정하여 추정값의 신뢰성을 확인해 보고자 하였던 것이고, 만성질환을 노령화의 기준으로 삼아 질병의 이완 정도를 판단할 기준이 되는지를 확인한 것이다.
분석 결과 통계적 방법의 MLR은 생물학적 나이의 양극단 값을 과대, 과소 추정하는 경향이 있어 해석할 때 주의가 필요하며, PCA는 MLR의 양극단의 과대, 과소 평가된 결과의 축소 효과가 보였지만, PCA 또한 선형 회귀를 기반으로 하여 MLR의 단점을 완벽하게 보완할 수 없다. KDM은 다차원 회귀분석의 벡터 공간들을 종속적이지 않도록 재구축하여 선형 회귀를 기반으로 하는 방법인 MLR, PCA의 단점들을 보완할 수 있었지만, MLR, PCA에 비해 복잡한 계산식으로 모형의 이해력과 응용력이 다소 떨어지는 것으로 생각된다. 기계 학습을 기반으로 한 RF와 XGB는 모두 의사결정나무를 기반으로 한 앙상블 기법으로 통계적 방법에서 나타나는 다중공선성, 양극단 값의 과대, 과소 추정 등 다양한 단점들을 보완할 수 있는 장점이 있었지만, 모형의 종속변수인 연대기적 나이를 너무 잘 추정하는 문제가 발생하여 바이오마커의 변화로 인해 발생하는 만성질환의 진단에 활용하기는 어려운 상황으로 판단된다.
결국 모든 방법은 조금씩 장단점을 가지고 있다. 추정 결과의 분산과 신뢰성을 나타내는 1-99% 범위와 사분범위의 결과는 기계 학습을 사용한 RF와 XGB가 가장 좁은 범위를 보인다. 하지만, 만성질환을 진단하는 진단 정확도의 측면에서는 통계적 방법인 KDM이 가장 좋은 성능을 보인다. 기존 타 연구들의 결과들과 비교해 보면 통계적 방법보다 기계 학습이 더 좋은 성능을 가질 것이라고 생각하지만, 생물학적 나이는 개인의 건강 상태를 알려주는 정답이 없는 지표를 추정하게 되면서 통계적 방법의 KDM이 더 좋은 예측률을 가지게 된다. 잔차의 분포, 질병 예측률을 통해 종합적으로 비교해 보면 미세하지만 KDM이 좀 더 우수하다고 할 수 있다.
생물학적 나이가 음수 값을 가지는 경우가 있다. 이 경우 기본 가정을 만족하여 나타난 결과이지만 음의 나이를 가진다는 것은 다소 모순이 있다. 따라서 추후 연구에서는 음의 값을 가지거나 본인의 연대기적 나이와의 차이가 너무 큰 경우 정해진 기준에 따라 보정해 주는 방법을 제시할 필요가 있다. 또한, 건강, 생활과 밀접한 관련이 있는 흡연, 음주, 신체활동 등 생활 습관과 관련된 정보는 활용하지 않았다. 이는 건강검진을 통해 진행하는 검사들과 관련이 있다고 판단하여 제외하였지만, 생활 습관과 관련이 있는 정보를 활용하여 생물학적 나이를 나타낼 수 있다면 건강검진을 받지 않더라도 개인의 건강 상태를 판단할 수 있어 더욱 활용도가 높을 것으로 기대된다. 또한 연구의 제한점으로 생각되는 부분은 생물학적 나이를 노화의 정도를 표현하는 지표로 생각하여 주요 건강지표를 대표하는 암, 심뇌혈관 등의 중증질환 발생을 예측하는 정도를 분석하지 못하였다. 따라서 해당 지표가 반영된 추후 연구가 필요할 것으로 생각된다.
REFERENCES
1. Steculorum SM, Brüning JC. Die another day: A painless path to longevity. Cell 2014;157(5):1004-1006. DOI: 10.1016/j.cell.2014.05.013.
2. Lee HJ, An OH. A basic study for the development of Korean aging index. In: Proceedings of the The Korean Housing Association. 2023;4:199-202.
5. Xie JC, Pun CM. Chronological age estimation under the guidance of age-related facial attributes. IEEE Trans Info Forens Security 2019;14(9):2500-2511. DOI: 10.1109/TIFS.2019.2902823.
7. Costa P, McCrae R. Concepts of functional or biological age: A critical view. New York, NY: McGraw-Hill; 1985.
8. Costa P, McCrae R. Functional age: A conceptual and empirical critique. Washington: US Government Printing Office; 1980.
9. Ingram DK. Key questions in developing biomarkers of aging. Exp Gerontol 1988;23(4-5):429-434. DOI: 10.1016/0531-5565(88)90048-4.
10. Hochschild R. Improving the precision of biological age determinations. Part 1: A new approach to calculating biological age. Exp Gerontol 1989;24(4):289-300. DOI: 10.1016/0531-5565(89)90002-8.
12. Klemera P, Doubal S. A new approach to the concept and computation of biological age. Mech Ageing Dev 2006;127(3):240-248. DOI: 10.1016/j.mad.2005.10.004.
14. Buslova A. Prediction of biological age [dissertation]. Lund University; Sweden: 2017.
15. Hollingsworth JW, Hashizume A, Jablon S. Correlations between tests of aging in Hiroshima subjects- an attempt to define “physiologic age”. Yale J Biol Med 1965;38(1):11-26.
16. Bae CY, Kang YG, Kim S, Cho C, Kang HC, Yu BY, et al. Development of models for predicting biological age (BA) with physical, biochemical, and hormonal parameters. Arch Gerontol Geriatr 2008;47(2):253-265. DOI: 10.1016/j.archger.2007.08.009.
17. Krøll J, Saxtrup O. On the use of regression analysis for the estimation of human biological age. Biogerontology 2000;1(4):363-368. DOI: 10.1023/a:1026594602252.
18. Dubina TL, Dyundikova VA, Zhuk EV. Biological age and its estimation. II. Assessment of biological age of albino rats by multiple regression analysis. Exp Gerontol 1983;18(1):5-18. DOI: 10.1016/0531-5565(83)90046-3.
19. Nakamura E, Miyao K, Ozeki T. Assessment of biological age by principal component analysis. Mech Ageing Dev 1988;46(1-3):1-18. DOI: 10.1016/0047-6374(88)90109-1.
20. Sprott RL. Biomarkers of aging and disease: introduction and definitions. Exp Gerontol 2010;45(1):2-4. DOI: 10.1016/j.exger.2009.07.008.
23. Cho IH, Park KS, Lim CJ. An empirical comparative study on biological age estimation algorithms with an application of Work Ability In-dex (WAI). Mech Ageing Dev 2010;131(2):69-78.
24. Breiman L. Random forests. Mach Learn 2001;45:5-32. DOI: 10.1023/A:1010933404324.
25. Chen T, Guestrin C. Xgboost: A scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD '16). 2016 Aug 13-17. San Francisco, CA. New York, NY: Association for Computing Machinery; 2016. p. 785-794. DOI: 10.1145/2939672.2939785.
26. Liu G, Nguyen TT, Zhao G, Zha W, Yang J, Cao J, et al. Repeat buyer prediction for e-commerce. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD '16). 2016 Aug 13-17. San Francisco, CA. New York, NY: Association for Computing Machinery; 2016. p. 155-164. DOI: 10.1145/2939672.2939674.
|
|