| Home | E-Submission | Sitemap | Editorial Office |  
top_img
J Health Info Stat > Volume 50(1); 2025 > Article
군집 알고리즘을 활용한 그레이브스병 환자의 스타틴 용량 궤적 및 갑상선 안병증 위험 연구

Abstract

Objectives

Graves’ orbitopathy (GO) is an autoimmune condition linked with Graves’ disease (GD). This study focuses on the relationship between statin dose trajectories and the risk of developing GO among GD patients using the data from the National Health Insurance Service (NHIS).

Methods

Utilizing the KmL (k-means for longitudinal data) clustering algorithm, we categorized patients with GD and hyperlipidemia into three distinct groups based on their two-year pre-diagnosis statin dosage. A Cox proportional hazards model with inverse probability weighting (IPW) was applied to evaluate the risk of GO across the identified clusters.

Results

The findings suggest that patients within the ‘Moderate’ statin dosage cluster are at a statistically lower risk of developing GO compared to those who did not use statins (p =0.048).

Conclusions

Moderate statin use significantly reduces the risk of GO in GD patients. These findings support the potential role of statins in GO prevention.

서 론

갑상선 안병증(Graves’ orbitopathy, GO)은 그레이브스병(Graves’ disease, GD)과 관련된 자가면역 질환 중 하나이다[1]. GO는 안구돌출이나 시력 손상을 일으키며, 이는 환자의 삶의 질에 큰 영향을 끼칠 수 있는 문제이다. 따라서 GD 환자에게서 GO가 발생하게 되는 위험 요인을 정확히 식별하는 것은 환자의 건강을 개선하고 효율적인 치료 방법을 구축하는 데에 큰 도움이 될 수 있다.
최근에는 GO 치료를 위해 콜레스테롤 감소 약물이 기능할 수 있는지에 대한 연구가 많이 진행되고 있다[2]. 스타틴(Statin)은 LDL 콜레스테롤(low density lipoprotein-cholesterol) 수치를 감소시켜 심혈관 위험을 개선하기 위해 가장 일반적으로 사용되는 약물이다[3]. Stein et al. [4]의 연구는 스타틴 치료를 받은 GD 환자에서 GO 발병 위험 감소를 확인하였으며, 스타틴이 콜레스테롤 수치를 낮추는 기능 때문에 GO 발병에 대한 보호 효과가 있을 수 있다는 가설을 제시하였다. Sabini et al. [5]의 연구에서는 250명의 GD 환자들을 대상으로 GO 발생과 콜레스테롤 수치의 관계에 관해 분석하였다. GD 발병 44개월 미만의 환자에서 총콜레스테롤과 LDL 콜레스테롤은 GO의 존재와 상관관계가 있으며, GO의 발생에서 콜레스테롤의 역할을 시사하는 결과를 도출한 바 있다.
그러나 스타틴 사용 용량 궤적의 차이가 GO 발생에 미치는 영향에 관한 연구는 아직 수행되지 않았다. 본 연구는 GD 환자들의 발병 전 스타틴 처방 이력의 추이에 따라 몇 개의 군집으로 나누어, 군집 간 GO의 위험도를 비교하고자 한다.
데이터는 국민건강보험공단에서 제공하는 표본코호트 데이터를 활용하였으며, 시간에 따른 사건 발생을 예측변수로 사용하므로 본 논문에서는 생존분석 모형을 활용하여 분석하였다. 또한, 군집 간 혼란 변수의 영향을 조정하기 위하여 역확률 가중치(inverse probability weighting, IPW) 방법을 적용하였다. 이는 비균형한 군집 특성을 보정 하여 공정한 비교가 가능하도록 하기 위함이다.
본 논문의 구성은 다음과 같다. 2절에서 경시적 자료 군집 알고리즘과 역확률 가중 콕스(Cox) 비례-위험 모형을 소개한다. 3절에서는 건강보험공단 표본코호트 데이터를 분석한 결과를 제시하고, 4절에서는 본 논문의 의의와 향후 연구방향에 대해서 고찰 및 논의한다.
마지막으로, 본 연구는 중앙대학교 기관생명윤리위원회로부터 심의 면제 승인(IRB No.: 1041078-202210-HR-245)을 받은 후 연구를 진행하였다. 4장에서 활용 및 분석한 연구 자료는 국민건강보험공단의 표본코호트 DB (연구관리번호 NHIS-2022-2-384)를 활용한 것으로, 연구의 결과는 국민건강보험공단과 관련이 없음을 밝힌다.

연구방법

경시적 자료 군집 알고리즘

군집 알고리즘은 비지도 학습의 대표적인 방법론 중 하나이다. 비지도 학습은 지도 학습과 달리 사전에 데이터에 대한 정답이 없고, 주어진 데이터들을 활용하여 비슷하고 유사한 데이터들을 군집해 나감으로써 특징을 발견한다.
경시적 자료는 동일한 관측 대상에 대해 여러 시점에서 반복적으로 관찰된 데이터를 말하며, 시간의 흐름에 따라 값이 변화하는 특징을 가진다. 이러한 자료는 여러 관측 대상들 간에 관찰 시간이나 관찰 횟수가 다를 수 있으며, 시간의 흐름에 따른 궤적을 분석하는 데 중요한 가치를 가진다.
경시적 자료의 군집화는 각 관측 대상의 시점 순서를 고려해야 하기 때문에 일반적인 군집 알고리즘을 사용해서는 적절한 군집을 형성하기 어렵다. 예를 들어, 단순한 유클리드 거리 기반 군집화 알고리즘은 시간 순서나 데이터 간의 종속성을 반영하지 못한다. 이에 따라, 경시적 자료의 궤적 변동성과 시점 간 상관관계를 고려할 수 있는 특화된 군집 알고리즘이 많이 연구되고 있다. 본 연구에서는 기존에 진행한 다양한 실험에서 강건한 성능을 보였던 k-means for longitudinal data(KmL)를 방법론으로 선정하였다.
k-means 군집은 주어진 데이터를 k개의 군집으로 묶는 알고리즘으로, 각 군집에 대하여 군집 내 거리 차이의 분산을 최소화하는 방식으로 동작한다[6]. 이를 경시적 자료에 맞게 변형한 알고리즘인 KmL은일반적으로 자주 사용되는 방법 중 하나이다[7]. 관측 대상들의 집합I에 속한 관측 대상 iT회 반복 측정되었을 때, i의 측정값들을 yi = (yi,1,yi,2,…,yi,T)로 나타낼 수 있으며, yi,j 는 시점 ti,j 에 측정된 값이 된다. k-means 알고리즘은 관측 대상들의 집합 I를 몇 개의 군집으 로 나누어, 군집 내 분산을 최소화하는 분할 I1,I2,…,IG를 찾는 것을 목표로 한다. 여기서g=1GIg=I 이고,g ≠ h 일 때 IgIh= 이다. 이를 수식으로 구하게 되면 다음과 같다.
(1)
argminI1,I2,IGg=1GiIgyiμg~2
여기서 μg^는 군집의 평균 벡터 값, 즉 μg^=|Ig|1iIgyi 이다. 이 알고리즘은 반복적인 접근 방식을 사용하여 해에 도달하며, 솔루션이 더이상 개선될 수 없을 때까지 반복한다. KmL의 경우, 군집의 중심은 각군집의 그룹 궤적을 나타낸다. 즉, 특정 군집에 속한 관측 대상은 군집궤적 μg^ 를 따르는 것으로 가정한다.

일반화 부스팅 모형을 이용한 성향 점수 추정

Rosenbaum and Rubin [8]에서는 무작위로 배정되지 않은 연구에서교란 효과를 보정하기 위한 성향 점수 방법론을 제안하였다. 성향 점수는 공변량 X에 의해 처치군 Z로 할당되는 조건부 확률로 정의할 수있다
(2)
e(x)=P(Z=1X=x),Z0,1
여기서 Z가 0인 경우 대조군, 1인 경우 처치군임을 나타낸다. 성향 점수를 이용하면 처치 전 공변량의 차이와 관련된 편향을 제거할 수 있으나, 다중 처치군에는 적용할 수 없다는 한계가 있다. 이에 Imbens [9]의 연구에서는 다중 처치군에 적용할 수 있는 일반화 성향 점수 방법론을 제안하였다. 관측 대상 i에 대하여 처치군 Zi와 공변량 Xi가 주어졌을 때, j=1Jej(xi)=1 를 만족하는 일반화 성향 점수 ej(xi) 는 다음과 같다.
(3)
ej(xi)=P(Zi=jXi=xi)
McCaffrey et al. [10]의 연구에서는 일반화 부스팅 모형(generalized (3) boosted models, GBM)을 통해 다중 처치군에서 일반화 성향 점수를 추정할 수 있는 방법론을 제안하였다. 일반화 부스팅 모형은 정확도를 향상시키기 위해 우도를 가장 크게 증가시키는 트리(tree)를 반복적으로적합한다. 다중 처치군에서의 일반화 성향 점수를 추정하기 위해서는우선 일반화 부스팅 모형을 적합하여 각 처치군Zi = j(j = 1,…,j) 에 대한 성향 점수를 추정한 뒤, 이를 이용해 모집단 표준화 편향(population standardized bias, PSB)를 구하게 된다.
(4)
PSBj,k=|Xk,j¯Xk,p¯|σk,p^,Xkj¯=i=1nZi,jXk,i/ej^(Xi)i=1nZi,j/ej^(Xi),j=1,,J
여기서 k는 공변량을 나타내며 (k = 1,…,K), Xkj¯ 는 성향 점수 가중치를 적용 후 공변량 평균, p^j(Xi)는 추정된 성향 점수, Xkp¯σ^kp 는 원자료의 모든 처치군의 표본에 대한 공변량의 평균과 표준편차를나타낸다.
이 알고리즘은 먼저 일반화 부스팅 모형을 적합하여 각 처치군에 대한 성향 점수를 초기 추정한 뒤, 공변량별 표준화 편향(PSBj,k)를 계산하고 이를 반복적으로 감소시키는 방식으로 동작한다. 초기 추정값은모든 관측치에 대해 동일한 예측값에서 시작하며, 처치군별 성향 점수 e^j(xi) 를 추정한 뒤,PSBj,k을 계산한다. 평균값 meank(PSBj,k)또는 최댓값 maxk(PSBj,k)중 하나를 선택하여, 해당 값이 사전에 설정한 임계값 이하가 될 때까지 GBM을 재학습함으로써 최적의 일반화 부스팅모형을 찾는다. 평균값 기준 최소화 방법은 전반적인 균형을 높이는데 초점을 둘 때 사용하며, 최댓값 기준 최소화 방법은 어떤 공변량도크게 불균형해지지 않도록 보장하고자 할 때 주로 사용한다. 위 과정이 종료된 시점에서의 GBM이 최적 모형이 되며, 그때 추정된 e^j(xi) 가 최종 성향 점수가 된다.
본 연구에서는 공변량의 전반적인 균형을 높이기 위해 meank(PSBj,k)를 기준으로 최소화하는 방식을 사용하였다. 이는 R의 twang 패키지 내 mnps() 함수를 활용하여 구현할 수 있다.
Rosenbaum [11]의 연구에서는 성향 점수를 표본의 가중치로 활용하는 방법인 역확률 가중치를 제안하였다. 각 처치군에 할당될 확률이 높은 관측 대상이 과대 표집되는 상황을 줄이기 위한 가중치이며, 관측 대상 i에 대한 역확률 가중치 wi 는 다음과 같이 정의된다.
(5)
wi=j=1JI(Zi=j)ej,i(xi)
여기서 I(Zi = j)는 Zi = j 인 경우에 1의 값을 가지며, 그 외의 경우에는 0의 값을 가지는 지시함수이다.

역확률 가중 콕스 비례-위험 모형

콕스 비례-위험 모형은 위험함수를 기반으로 질병의 발병과 관련된 변수들이 있을 때, 해당 변수들이 질병의 발병에 영향을 주는지 확인하기 위해 사용하는 생존분석 모형이다[12]. Xi를 환자 i (i =1,…,N)의 공변량 벡터라고 할 때, 환자 i의 시점 t에서의 위험함수는 다음과 같다.
(6)
hi(tXi)=h0(t)eβXi
여기서 β는 공변량의 계수 벡터를 나타내며, λ0(t) 는 모든 공변량이기준 값을 가진 경우, 즉 기저 위험함수를 나타낸다. C를 검열된 시간이라고 했을 때,T~=min(T,C),Δ=I(TC),Y(t)=I(T~t)라고 각각 정의하며, I(·)는 지시함수를 나타낸다. 환자별로 부여할 가중치가 다른 상황에서는 역확률 가중 콕스 비례-위험 모형을 활용할 수 있다. Binder [13]의 연구에서는 설문조사 데이터에서 역확률 가중 콕스 비례-위험 모형을 맞추는 절차를 제안하였다. β는 부분우도 함수 최대화하여 추정할 수 있으며, 본 연구에서 사용하는 로그화된 부분우도 함수 PL(β)은 다음과 같이 정의된다.
(7)
PLw(β)=i=1NwiΔi{XiSw(1)(β,T~i)Sw(0)(β,T~i)}
(8)
Sw(0)(β,t)=1Ni=1NwiYi(t)eβXi
(9)
Sw(1)(β,t)=1Ni=1NwiYi(t)eβXiXi
여기서 wi 는 환자 i의 가중치를 나타내며, 모든 wi 가 1의 값을 가지는 경우 일반적인 콕스 비례-위험 모형과 동일하다. 여기서 Δi 는 환자 i의 사건 발생 여부(1: 발생, 0: 검열)를 나타내며, Sw(0)(β,t)Sw(1)(β,t) 는 각각 위험집단에 속한 표본들의 가중치가 적용된 누적합을 의미한다.

연구 결과

분석 데이터

본 연구는 국민건강보험공단에서 제공하는 표본 데이터베이스를활용하였다. 국민건강보험공단은 대한민국 정부가 관리하는 공적 의료보험 제도로, 대한민국에 거주하는 모든 국민이 의무적으로 가입해야 하는 보험 제도이다. 또한 국민건강보험공단은 모든 피보험자에게 표준화된 무료 건강검진을 정기적으로 제공하고 있다. 본 연구에서는 2002년부터 2019년까지 총 1,137,861명의 데이터를 활용하여 전향적 코호트 연구를 설계하였다.
연구대상은 고지혈증을 진단받은 이력이 있는 신규 GD 환자로 정의하였다. 신규 GD 환자는 국제질병분류 ICD-10 코드(E05)로 최소 2회 이상 진단을 받고 180일 이상 갑상선 기능 항진증 약물을 처방받은 환자로 정의하였으며, 고지혈증은 ICD-10 코드(E78)로 최소 2회 이상 진단받았거나 지질 저하 약물을 처방받은 환자로 정의하였다. 그 결과, 1,544명을 연구 대상자로 확정하였다.
확정된 연구 대상 중 GD 첫 진단일 이전 2년 동안 스타틴을 한 번도 복용하지 않은 환자 904명(58.5%)을 스타틴 비복용군 ‘ Non-users’로 정의하였다. 반면, 같은 기간 동안 스타틴을 한 번 이상 복용한 스타틴 복용군은 총 640명(41.5%)으로, GD 첫 진단일 이전 2년의 스타틴 용량 궤적에 따라 군집 알고리즘을 통해 각각 ‘ Low’ 군집과 ‘ Moderate to High’ 군집으로 분류하였다(Figure 1). 본 연구에서는 세 군집 간의 차이를 분석하여 스타틴 복용 궤적과 GD 발생 위험 간의 연관성을 평가하였다.
Figure 1.
Flow chart of patients with Graves’ disease (GD). NHIS-NSC, The National Health Insurance Service-National Sample Cohort.
jhis-50-1-104f1.jpg
본 연구의 관심 종속변수인 GO 발생 여부는 ICD-10 코드(H062)로 1회 이상 진단받은 경우로 정의하였으며, GO의 발생 시점은 ICD-10 코드(H062)로 최초로 진단받은 날짜로 정의하였다. 소득 수준, 거주지, 음주, 흡연력 등에 대한 정보는 GD 진단 전 3년 이내에 수집된 표준화된 자기기입식 설문지를 통해 정의하였으며, 그 외에도 식전 혈당(mg/dL)과 총콜레스테롤(mg/dL)을 측정하였다.
본 연구에서는 요오드(Iodine) 치료와 갑상선 자가면역 질환뿐만 아니라, GD 진단 전 동반될 수 있는 다양한 기저질환 정보를 추가적으로 변수에 포함하였다. 당뇨, 자가면역 질환, 고혈압, 허혈성 심장질환, 울혈성 심부전, 말초혈관질환, 뇌혈관질환, 만성 폐질환, 류마티스 질환, 경증 간질환 등이 있으며, 각 질환은 해당 ICD-10 코드를 1회 이상 진단받은 경우(당뇨의 경우 약제 코드 포함)로 정의하였다. 각 질환에 대한 상세한 ICD-10 코드와 약물 목록은 Supplementary Tables 1, 2에 제시하였다.
연구에 활용된 변수 중 건강검진 자료에서는 흡연 13.4%, 음주 34.1%, 체질량지수 31.7%, 콜레스테롤 32.9%, 공복혈당 31.7%의 결측치가 관찰되었으나, 이는 경시적 자료가 아닌 기준 시점 공변량에 한정되었다. 표본 크기 및 결측으로 인한 잠재적 편향을 완화하기 위하여, R의 mice 패키지의 mice() 함수를 활용하여 다중 보간을 수행하였고, 이를 통해 10개의 완전 데이터셋(dataset)을 생성하였다. 이후 각 데이터셋에 대해 후속 분석을 진행한 후 결과를 통합하였다.
스타틴 복용 여부는 아토르바스타틴, 플루바스타틴, 로바스타틴, 피타바스타틴, 프라바스타틴, 로수바스타틴, 심바스타틴 중 하나 이상을 처방받은 이력이 있는 경우로 정의하였다. 스타틴의 장기적인 LDL 콜레스테롤 감소 효과 및 항염증 효과가 누적 복용량에 따라 나타날 수 있다는 선행 연구 결과에 근거하여 GD 첫 진단 전 2년 동안의 처방 정보를 월별로 집계하여 총 24개 시점에 대한 복용 궤적을 구성하였다[14].
또한, 다양한 스타틴의 종류를 비교 가능한 단위로 맞추기 위해 세계보건기구(World health organization, WHO)에서 제공하는 국제적으로 통용되는 지표인 defined daily dose (DDD)를 사용하였으며, 각 스타틴별 LDL 콜레스테롤 감소 효과가 동등하도록 아토르바스타틴 10 mg 기준으로 플루바스타틴 80 mg, 로바스타틴 40 mg, 피타바스타틴 2 mg, 프라바스타틴 40 mg, 로수바스타틴 5 mg, 심바스타틴 20 mg 으로 환산하였다[15]. 본 연구의 데이터 전처리 및 분석 과정에서는 통계 프로그램 SAS 9.4 (SAS Institute Inc., Cary, NC, USA) 및 R 4.3.0을 사용하였다.
Table 1은 본 연구에서 정의한 세 개의 군집(Non-users, Low, Moderate to High)에 따른 주요 인구학적·임상적 특성을 요약한 것이다. 연속형 변수는 평균 ± 표준편차로, 범주형 변수는 빈도로 제시하였다. 표에서 확인할 수 있듯이, Non-users 군집은 상대적으로 연령이 낮았고(51.7±13.2세), Low와 Moderate to High 군집은 평균 연령이 높아지는 경향을 보였다(각각 58.5±10.9세, 62.6±10.7세). 또한, 여성 비율이나 고혈압, 허혈성 심장질환, 뇌혈관질환 등 일부 동반 질환의 분포가 군집 간 유의한 차이를 나타냈다. 이러한 기저 특성은 군집 간 GO 발생 위험 비교 시 교란 효과를 적절히 통제하기 위한 기초 자료로 활용되었다.
Table 1.
Baseline characteristics by statin dose cluster
Variables Non-users Low Moderate to High p-value
n (%) or Mean±SD n (%) or Mean±SD n (%) or Mean±SD
Age (y) 51.7±13.2 58.5±10.9 62.6±10.7 <0.001
Female 609 (67.4) 304 (71.9) 163 (75.1) 0.043
Income 0.728
  Low 197 (22.7) 92 (22.8) 51 (24.3)
  Middle 309 (35.6) 142 (35.2) 64 (30.5)
  High 361 (41.6) 169 (41.9) 95 (45.2)
Region 0.297
  Capital 432 (47.8) 195 (46.1) 114 (52.5)
  Metropolitan 179 (19.8) 91 (21.5) 48 (22.1)
  Rural 293 (32.4) 137 (32.4) 55 (25.3)
Smoking 205 (26.3) 102 (26.4) 39 (21.2) 0.333
Drinking 190 (30.9) 85 (26.3) 30 (18.6) 0.007
Cholesterol (mg/dL) 187.17±38.35 207.17±47.03 171.51±37.59 <0.001
Fasting blood sugar (mg/dL) 104.08±30.52 106.85±26.06 108.41±23.19 0.133
Body mass index (kg/m²) 23.68±3.31 24.43±3.31 24.68±2.95 <0.001
Iodine 16 (1.8) 7 (1.7) 3 (1.4) 0.922
Diabetes mellitus 306 (33.8) 180 (42.6) 122 (56.2) <0.001
Autoimmune disease 163 (18.0) 88 (20.8) 66 (30.4) <0.001
Hypertension 378 (41.8) 275 (65.0) 173 (79.7) <0.001
Ischemic heart disease 145 (16.0) 122 (28.8) 91 (41.9) <0.001
Congestive heart failure 73 (8.1) 45 (10.6) 41 (18.9) <0.001
Peripheral vascular disease 161 (17.8) 116 (27.4) 79 (36.4) <0.001
Cerebrovascular disease 109 (12.1) 87 (20.6) 72 (33.2) <0.001
Chronic pulmonary disease 523 (57.9) 269 (63.6) 149 (68.7) 0.006
Rheumatologic disease 130 (14.4) 74 (17.5) 45 (20.7) 0.049
Mild liver disease 485 (53.7) 231 (54.6) 121 (55.8) 0.839

SD, standard deviation.

분석 결과

본 연구에서는 GD 첫 진단일 이전 2년 간의 스타틴의 복용량 궤적을 군집화하기 위해 KmL 알고리즘을 적용하였다. 실제 데이터에서는 군집 간 구분이 명확하지 않은 경우가 많기에, 최적의 군집 수를 결정하는 것은 중요하고 어려운 문제이다. 이에 Nagin and Odgers [16]의 제안을 바탕으로 객관적인 기준과 도메인 지식(domain knowledge)을 결합하여 평균 실루엣 계수(average silhouette width, ASW)와 Dunn 지수를 판단 기준으로 사용하였다.
실루엣 계수는 군집 안에 있는 데이터들이 잘 모여있는지, 군집 간에는 서로 잘 구분되는지를 평가하는 척도로 활용된다. 경시적 자료인 각 관측치의 스타틴 복용 궤적은 24차원 벡터로 표현되며, 이들 간의 거리는 유클리드 거리를 사용하여 산출되었다. 관측 대상 i의 실루엣 계수 s (i)는 아래와 같은 수식으로 정의된다.
(10)
s(i)=b(i)a(i)max{a(i),b(i)}
여기서 a (i)는 i가 속한 군집 내에서 i와 다른 모든 관측 대상 간의 평균 거리를 나타내며, b (i)는 i와 가장 가까운 다른 군집의 모든 관측 대상 간의 평균 거리를 나타낸다. 평균 실루엣 계수는 모든 s (i)의 평균값으로 구할 수 있다.
Dunn 지수 또한 군집 알고리즘의 성능을 평가하는 지표 중 하나이며, 군집 내 최대 거리에 대한 군집 간 최소 거리의 비로 나타내며, 수식은 다음과 같다.
(11)
DI=minijd(cicj)maxkd(ck)
여기서d(ci,cj)는 군집 cicj사이의 거리를 나타내며, d'(ck) 는군집 ck내부의 최대 거리를 나타낸다. mini ≠ jd(ci,cj)는 모든 군집 쌍 간의 최소 거리, maxkd'(ck)은 군집 내에서 최대 거리를 가진 군집을 의미한다. 두 지표 모두 군집 성능을 평가하는 데 사용되지만, 평균 실루엣 계수는 군집 내의 응집도와 군집 간의 분리도를 동시에 고려하기 때문에 균형 잡힌 결과를 얻고자 할 때 적합한 반면, Dunn 지수는 군집 간의 최소 거리와 군집 내의 최대 거리를 비교하므로 이상치에 더 집중할 수 있다.
Table 2는 군집 수를 2개에서 6개까지 변화시키며 각각 산출한 ASW 와 Dunn 지수를 요약한 결과이며, Figure 2는 그 결과를 시각화한 그래프이다. 두 지표 모두 군집 수가 2개일 때 가장 높은 값을 보였으며, 군집 수가 증가할수록 점차 감소하는 경향을 확인할 수 있다. 이는 2개군집이 스타틴 복용 궤적을 가장 효과적으로 분류함을 시사한다. 따라서 본 연구에서는 최종적으로 군집 수를 2개로 결정하였다.
Figure 2.
Trends in average silhouette width (ASW) and Dunn index by number of clusters.
jhis-50-1-104f2.jpg
Table 2.
Average silhouette width (ASW) and Dunn index by number of clusters
Number of clusters ASW Dunn index
2 0.349 0.032
3 0.265 0.030
4 0.247 0.028
5 0.191 0.029
6 0.157 0.028
군집의 궤적 형태 및 복용 수준에 따라 Simony et al. [14]의 연구 등을 참고하여 2개의 군집의 명칭을 각각 ‘ Low’ 군집과 ‘ Moderate to High’ 군집으로 명명하였다(Figure 3). 스타틴 복용량 궤적을 분석한 결과, ‘ Low’ 군집과 ‘ Moderate to High’ 군집은 평균 복용량과 변화 추이에 있어서 다소 차이를 보였다. ‘ Low-intensity’ 군집은 스타틴 복용 환자의 66%를 차지하며, 24개월 동안 평균 스타틴 복용량(DDD)이 0.2 이하로 유지되었고, 시간에 따른 복용량 변화도 크지 않았다. 반면, ‘ Moderate to High’ 군집은 전체 환자의 34%를 구성하며, 평균 스타틴 복용량이 약 0.5에서 시작하여 0.7 이상까지 점진적으로 증가하는 양상을 보였다.
Figure 3.
Statin dose trends over 24 months in two clusters. DDD, defined daily dose.
jhis-50-1-104f3.jpg
스타틴을 처방받지 않았던 ‘ Non-users’ 군집을 포함하여, 총 3가지군집에 대한 GO 발생 빈도를 분석한 결과, ‘ Non-users’과 ‘ Low’ 군집의 경우 GO 발생률이 각각 5.6%, 6.1%로 비슷한 값을 나타내는 반면, ‘ Moderate to High’ 군집의 경우 2.8%로 상대적으로 낮은 값을 보이는 점을 알 수 있다(Table 3). 이는 일정 수준 이상의 스타틴 복용량이 GO 발생 위험을 감소시키는 데 기여할 가능성을 시사한다. 이는 카플란 마이어 곡선(Kaplan-Meier curves)를 통해서도 확인할 수 있다(Figure 4).
Figure 4.
Kaplan-Meier curves by statin dose cluster.
jhis-50-1-104f4.jpg
Table 3.
Prevalence of Graves'orbitopathy (GO) by cluster
Cluster Non-GO (n=1,461) GO (n=83) Overall (n=1,544)
n (%) n (%) n
Non-users 853 (94.3) 51 (5.6) 904
Low 397 (93.8) 26 (6.1) 423
Moderate to High 211 (97.2) 6 (2.8) 217
본 연구의 관심사는 스타틴 복용 궤적에 따른 GO의 발생 위험 차이를 탐색하는 데에 있다. 따라서 이를 정확히 확인하기 위해서는 다른 변수들로 인한 교란 효과를 제어할 필요성이 있다. 이를 위해 일반화 부스팅 모형을 사용하여 성향 점수를 추정하고 IPW를 적용하였다.
IPW 적용 전후의 공변량 균형 상태를 시각적으로 확인하기 위해, Figure 5에서는 각 공변량에 대한 t-검정(연속형 변수) 및 카이제곱검정(범주형 변수) 결과의 유의확률(p-value)을 비교하였다. 검은 실원(solid circle)은 IPW를 적용하기 전의 결과, 흰 빈원(hollow circle)은 IPW를 적용한 후의 결과를 의미한다. 그림에서 IPW를 적용한 후, 대부분의 공변량에서 유의확률이 0.05 이상으로 상승하여 군집 간 불균형이 개선되었음을 확인할 수 있다. 즉, IPW가 교란 변수를 효과적으로 보정해 주어, 공변량의 분포가 보다 균형 잡히도록 조정되었다고 판단할 수 있다.
Figure 5.
Comparison of p-values for pretreatment variables before and after inverse probability weighting (IPW). Black solid circles indicate p-values before IPW, and white hollow circles show p-values after IPW. The x-axis ranks covariates by p-value magnitude, while the y-axis displays the corre-sponding p-values (using the pairwise minimum method). “es.mean” de-notes the stop method in the generalized boosting model that minimizes average standardized bias.
jhis-50-1-104f5.jpg
또한, Table 4에서는 IPW 적용 전후 각 공변량의 유의확률과 표준화 평균 차이(standardized mean differences, SMD)를 요약하였다. 표에서 확인할 수 있듯이, IPW 적용 후 대부분의 공변량에서 유의확률이 상승하고 SMD가 감소하여, 교란 효과가 크게 줄어들었음을 확인할 수 있다.
Table 4.
Comparison of p-values and standardized mean differences before and after IPW
Variables Before IPW After IPW
p-value SMD p-value SMD
Age <0.001 0.644 0.433 0.090
Female 0.043 0.114 0.022 0.173
Income 0.728 0.073 0.479 0.119
Region 0.297 0.121 0.105 0.173
Smoking 0.333 0.081 0.721 0.050
Drinking 0.007 0.191 0.601 0.067
Cholesterol <0.001 0.572 0.896 0.049
Fasting blood sugar 0.133 0.107 0.652 0.055
Body mass index <0.001 0.207 0.799 0.066
Iodine 0.922 0.021 0.522 0.059
Diabetes mellitus <0.001 0.306 0.423 0.090
Autoimmune disease <0.001 0.195 0.829 0.030
Hypertension <0.001 0.551 0.595 0.076
Ischemic heart disease <0.001 0.394 0.799 0.037
Congestive heart failure <0.001 0.214 0.707 0.042
Peripheral vascular disease <0.001 0.284 0.688 0.044
Cerebrovascular disease <0.001 0.347 0.724 0.041
Chronic pulmonary disease 0.006 0.150 0.602 0.067
Rheumatologic disease 0.049 0.112 0.955 0.012
Mild liver disease 0.839 0.028 0.095 0.149

IPW, inverse probability weighting; SMD, standardized mean differences.

다중 보간을 통해 생성한 10개의 데이터 셋에 각각 역확률 가중 콕스 비례-위험 모형을 적합한 후, 적합 결과를 통합하여 군집별 GO 발생 위험의 차이를 분석하였다. 분석 결과, ‘ Moderate to High’ 군집에서 GO 발생 위험은 ‘ Non-users’ 군집에 비해 약 64% 낮은 것으로 나타났으며(hazard ratio, HR=0.36, 95% confidence interval, CI: 0.16-0.83, p = 0.048), 이는 통계적으로 유의미한 결과이다. 이 결과는 일정 수준 이상의 스타틴 복용이 GO 발생 위험을 감소시키는 데 기여할 수 있음을 시사하며, 복용량이 적을 경우 이러한 효과가 명확하지 않을 수 있음을 보여준다(Table 5).
Table 5.
Results of the IPW Cox proportional hazards model analysis
Statin dose cluster Estimate SE HR (95% CI) p-value
Non-users Reference - 1.00 -
Low 0.29 0.27 1.34 (0.96-3.13) 0.292
Moderate to High -1.01 0.50 0.36 (0.16-0.83) 0.048

IPW, inverse probability weighting; SE, standard error; HR, hazard ratio; CI, confidence interval.

반면, ‘ Low’ 군집의 경우 GO 발생 위험이 ‘ Non-users’ 군집과 비교하여 통계적으로 유의미한 차이를 보이지 않았다(HR=1.34, 95% CI: 0.96-3.13, p =0.292). 이는 부분적·간헐적 스타틴 복용이 보호 효과를 충분히 발휘하지 못했을 가능성, 혹은 측정되지 않은 교란 변수의 영향을 배제할 수 없음을 의미한다.

고찰 및 결론

본 논문은 스타틴 복용 궤적을 위험 요인으로 활용하여, 고지혈증 이력이 있는 GD 환자에서 스타틴 복용 패턴에 따른 GO 발생 위험의 차이를 확인하고자 하였다. 이를 위해, 국민건강보험공단의 표본코호트 데이터를 기반으로 GD 진단 전 2년간의 스타틴 복용 궤적을 KmL 알고리즘으로 군집화하고, 다중 보간을 적용한 10개의 데이터셋에 대해 역확률 가중치 콕스 비례-위험 모형을 적합하여 군집별 GO 위험을 비교하였다.
분석 결과, ‘ Moderate to High’ 군집에서 GO의 발병 위험이 ‘ Non-users’ 군집에 비해 통계적으로 유의하게 낮은 것으로 나타났다. 이는 상대적으로 높은 농도의 스타틴 복용 궤적을 가진 환자들이 GO 발생 위험이 감소한다는 기존 선행연구들의 가설을 지지하는 결과로 해석된다. 한편, ‘ Low’ 군집에서는 유의하지 않은 결과를 보였는데, 이는 용량이 충분치 않거나 복용 패턴이 불규칙할 경우 예방 효과가 뚜렷하게 나타나지 않을 수 있음을 시사한다.
본 연구는 스타틴 복용 궤적이라는 경시적 자료에 군집 분석을 활용하여 GD 환자의 GO 발생 위험을 평가한 최초의 연구로, 스타틴 치료가 GD 환자의 GO 예방 전략으로 고려될 수 있는 가능성을 제시하였다.
다만, 본 연구는 한국의 국민건강보험 데이터를 기반으로 수행되었으므로, 연구 결과의 외부 타당성에는 한계가 있을 수 있으며, 다른 인종이나 국가에서의 일반화에 주의가 필요하다. 또한, GD와 GO의 진행에 영향을 미칠 수 있는 갑상선 자가항체 수치, 세부 흡연력, 환경 요인 등 일부 중요한 변수들이 교란 변수로 충분히 반영되지 않았다는 점은 본 연구의 한계로 지적될 수 있다. 향후 연구에서는 이러한 변수들을 포함하여 전 국민 데이터 등 보다 큰 규모의 자료를 활용함으로써 GD 환자의 스타틴 복용과 GO 발생 사이의 관계를 보다 명확하게 규명할 수 있을 것이다.

Supplementary Material

Supplementary Table 1. ICD-10 codes of diagnoses used for defining the study population, comorbidities, and outcomes
Supplementary Table 2. Medications of diagnoses used in the study
jhis-50-1-104-Supplementary.pdf

REFERENCES

1. Piantanida E, Tanda ML, Lai A, Sassi L, Bartalena L. Prevalence and natural history of Graves’ orbitopathy in the XXI century. J Endocrinol Invest 2013;36(6):444-449. DOI: 10.3275/8937.

2. Lanzolla G, Vannucchi G, Ionni I, Campi I, Sileo F, Lazzaroni E, et al. Cholesterol serum levels and use of statins in Graves’ orbitopathy: A new starting point for the therapy. Front Endocrinol (Lausanne) 2020;10:933. DOI: 10.3389/fendo.2019.00933.
crossref pmid pmc
3. Bartalena L, Chiovato L, Vitti P. Management of hyperthyroidism due to Graves’ disease: Frequently asked questions and answers (if any). J Endocrinol Invest 2016;39(10):1105-1114. DOI: 10.1007/s40618-016-0505-x.
crossref pmid pdf
4. Stein JD, Childers D, Gupta S, Talwar N, Nan B, Lee BJ, et al. Risk fac-tors for developing thyroid-associated ophthalmopathy among indi-viduals with Graves disease. JAMA Ophthalmol 2015;133(3):290-296. DOI: 10.1001/jamaophthalmol.2014.5103.
crossref pmid pmc
5. Sabini E, Mazzi B, Profilo MA, Mautone T, Casini G, Rocchi R, et al. High serum cholesterol is a novel risk factor for Graves’ orbitopathy: Results of a cross-sectional study. Thyroid 2018;28(3):386-394. DOI: 10.1089/thy.2017.0430.
crossref pmid
6. MacQueen J. Some methods for classification and analysis of multi-variate observations. Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability. 1967;Berkeley and Los Ange-les.281-297.

7. Genolini C, Falissard B. KmL: k-means for longitudinal data. Computational Statistics 2010;25(2):317-328. DOI: 10.1007/s00180-009-0178-4.
crossref pdf
8. Rosenbaum PR, Rubin DB. The central role of the propensity score in observational studies for causal effects. Biometrika 1983;70(1):41-55. DOI: 10.1093/biomet/70.1.41.
crossref
9. Imbens GW. The role of the propensity score in estimating dose-re-sponse functions. Biometrika 2000;87(3):706-710. DOI: 10.1093/biomet/87.3.706.
crossref
10. McCaffrey DF, Griffin BA, Almirall D, Slaughter ME, Ramchand R, Burgette LF. A tutorial on propensity score estimation for multiple treat-ments using generalized boosted models. Stat Med 2013;32(19):3388-3414. DOI: 10.1002/sim.5753.
crossref pmid pmc pdf
11. Rosenbaum PR. Model-based direct adjustment. J Am Stat Assoc 1987;82(398):387-394. DOI: 10.2307/2289440.
crossref
12. Cox DR. Regression models and life-tables. J Royal Stat Soc: Series B (Methodological) 1972;34(2):187-220. DOI: 10.1111/j.2517-6161.1972.tb00899.x.
crossref pdf
13. Binder DA. Fitting Cox's proportional hazards models from survey data. Biometrika 1992;79(1):139-147. DOI: 10.1093/biomet/79.1.139.
crossref
14. Simony SB, Langsted A, Mortensen MB, Nordestgaard BG, Afzal S. Statin use is associated with less ST-elevation versus non-ST-elevation myocardial infarction in a nationwide study. Atherosclerosis 2024;399:118625. DOI: 10.1016/j.atherosclerosis.2024.118625.
crossref pmid
15. World Health Organization. Defined daily dose (DDD). ATC/DDD Toolkit. Available at https://www.who.int/tools/atc-ddd-toolkit/about-ddd [accessed on December 23, 2024].

16. Nagin DS, Odgers CL. Group-based trajectory modeling in clinical research. Annu Rev Clin Psychol 2010;6:109-138. DOI: 10.1146/annurev.clinpsy.121208.131413.
crossref pmid
TOOLS
PDF Links  PDF Links
PubReader  PubReader
ePub Link  ePub Link
XML Download  XML Download
Full text via DOI  Full text via DOI
Download Citation  Download Citation
Supplement  Supplement
  Print
Share:      
METRICS
0
Crossref
196
View
7
Download
Related article
Editorial Office
The Korean Society of Health Informatics and Statistics
680 gukchaebosang-ro, Jung-gu, Daegu, 41944, Korea
E-mail: koshis@hanmail.net
About |  Browse Articles |  Current Issue |  For Authors and Reviewers
Copyright © The Korean Society of Health Informatics and Statistics.                 Developed in M2PI