In this study, the correlation between the clustering of lifestyle and the prevalence of chronic diseases was identified with the association rule analysis utilizing raw data of the Korean Community Health Survey by Korea Centers for Disease Control and Prevention (KCDC).
It identified the characteristics of the subject and selected the representative type of cluster through the association rule analysis. In addition, through the chisquare test, the sensitivity and specificity value, it tested the significance and validity of the association rule. Through the logistic regression analysis, identified the individual characteristic factors having influence on the cluster of lifestyle.
The statistically significant association rule was mainly composed of two or three lifestyle clusters and that composed of five lifestyle clusters the most was shown. In addition, there was lifestyle cluster shown commonly in the their age groups in all the chronic diseases and on the contrary, there was the lifestyle cluster shown in specific age group only. Also the specificity of all lifestyle clusters were represented greater than the sensitivity. In the results of identifying the association of individual factors by selecting the lifestyle cluster shown commonly in all chronic diseases in all age groups, the gender, residential area, and occupation showed the significant association in all clusters.
It presented that drawing the meaningful results by applying the association rule analysis on the health care Big Data is possible. Particularly, the fact that the association rule showing specific pattern between the lifestyle and the chronic disease was discovered provides the important implication in correcting the lifestyle for chronic disease management and prevention.
고령화, 의료기술 발전, 기대여명 증가, 생활습관 등의 변화로 인해 만성질환 유병률이 급증하고 있으며 이에 따른 사회와 개인의 부담도 증가하고 있다[
만성질환은 흡연, 과도한 음주, 비만, 그리고 신체적 비활동 등의 생활습관과 관련된 건강위험행위들과 밀접한 관계가 있다[
최근에는 인구 고령화에 따른 만성 질환 및 퇴행성 질환의 증가 등의 사회적 문제를 해결하기 위해 보건의료 분야에서 빅데이터를 활용하고자 하는 다양한 연구들이 시도되고 있다. 보건의료 빅데이터의 활용은 개인이 건강을 관리하고 의료를 선택하는 방식을 변화시켜 보건의료시스템 전반에서 건강 결과와 지출의 효율을 높이는 혁신의 동력으로 기대되고 있다[
이에 본 연구에서는 지역사회건강조사 원시자료를 활용하여 생활습관 군집현상과 만성질환 유병의 연관성을 연관규칙분석으로 파악함으로써 예방 측면의 맞춤형 만성질환 관리에 도움이 될 수 있는 기초자료를 제공하고자 한다.
이에 대한 구체적인 내용은 다음과 같다.
● 연령층별로 생활습관과 만성질환의 특성 및 분포를 비교하고자 한다.
● 연관규칙분석을 통해 연령층 및 만성질환별로 생활습관 군집 중 대표성이 있는 군집 유형을 선정하고자 한다.
● 카이제곱검정과 민감도, 특이도 값을 통해 본 연구의 연관규칙 유의성을 평가하고 타당성을 검증하고자 한다.
● 로지스틱 회귀분석을 통해 생활습관 군집에 영향을 미치는 개인 특성 요인을 파악하고자 한다.
본 연구에서는 질병관리본부에서 2016년 8월 16일부터 10월 31일까지 시행한 지역사회건강조사 원시자료를 활용하였다. 해당 조사는 국내에 거주하는 만 19세 이상의 성인을 대상으로 훈련된 조사원이 표본으로 선정된 가구에 직접 방문하여 1대1 전자설문조사로 진행되었으며, 18개 영역 161개 문항으로 구성되어있다. 세부적으로는 가구조사, 건강행태, 예방접종 및 검진, 이환, 의료이용, 사고 및 중독, 활동제한 및 삶의 질, 보건기관 이용, 사회 물리적 환경, 심폐소생술, 교육 및 경제활동 영역이 포함된다[
본 연구에서는「지역사회건강조사 원시자료 공개 및 활용규정」에 따라 질병관리본부의 승인을 받은 후 홈페이지[
본 연구는 보건복지부의 2차 자료를 활용했으며, 경희대학교 생명윤리심의위원회의 심의 면제 승인을 받았다(IRB No. KHSIRB-19-323).
본 연구에서는 개인특성 변수로 응답자의 성별, 연령, 거주 지역, 직업, 교육수준을 사용하였다.
성별은 남성과 여성으로 분류하였다. 연령은 청장년층(25-44세), 중년층(45-64세), 노년층(65세 이상)으로 분류하였다[
직업은 한국표준직업분류에 따라 10개로 분류되어 있는 직업군을 3개로 재분류하고, 지역사회건강조사 응답 항목의 주부, 학생/재수생, 무직을 추가하여 총 6개 직업군으로 정의하였다. 세부적으로는 사무직(관리자, 전문가 및 관련 종사자, 사무 종사자), 서비스판매직(서비스 종사자, 판매 종사자), 생산기능직(농 ·림·어업 종사자, 기능원 및 관련기능 종사자, 장치·기계조작 및 조립 종사자, 단순노무 종사자), 주부, 기타(군인, 학생/재수생), 무직으로 구성된다.
교육 수준은 지역사회건강조사 응답 항목 기준에 따라 무학, 초등학교, 중학교, 고등학교, 2년/3년제 대학, 4년제 대학, 대학원 이상으로 분류하였다.
본 연구에서는 Alameda County 연구에서 사용한 7가지 건강행위 변수를 이용하여 보건 지침을 지키지 않는 경우를 만성질환에 영향을 미치는 생활습관 요인으로 정의하였다. 모든 생활습관 요인을 실천함과 실천하지 않음의 두 가지로 분류하여 건강행위를 실천하지 않는 것, 즉 부정적 생활습관을 분석하였다[
흡연(current smoking, CS)은 현재 흡연을 하는 경우로 정의했으며[
과도한 음주(heavy drinking, HD)는 국가통계포털 100대 지표에서 제시한 음주 고위험군 기준을 따랐으며, 남성의 경우 주 2회 이상, 1회 평균 7잔 이상, 여성의 경우 주 2회 이상, 1회 평균 5잔 이상을 마시는 경우로 정의하였다.
신체적 비활동(physical inactivity, PI)은 질병관리본부의 국민건강영양조사에서 제시한 중등도 이상 신체활동 실천 기준을 따랐다. 최근 1주일 동안 평소보다 몸이 매우 힘들거나 숨이 많이 가쁜 격렬한 신체활동을 1일 20분 이상, 주 3일 이상 실천하거나 평소보다 몸이 조금 힘들거나 숨이 약간 가쁜 중등도 신체활동을 1일 30분 이상, 주 5일 이상 실천하는 지침을 지키지 않는 경우로 정의하였다.
부적절한 체중 조절(inappropriate weight control, IW)은 World Health Organization (WHO) 아시아-태평양 지역 체질량지수(body mass index, BMI) 기준에서 제시한 병적비만인 25 이상으로 정의하였다.
부적절한 수면(inappropriate sleep, IS)은 일반적인 성인의 적정 수면시간인 하루 7-8시간을 실천하지 않는 하루 7시간 미만 또는 8시간 이상 수면하는 경우로 정의하였다[
아침식사 결식(breakfast skipping, BS)은 국가통계포털 100대 지표에서 제시한 아침 식사 결식 기준을 따랐으며, 최근 1주일 동안 아침식사를 5일 이상 먹지 않은 경우로 정의하였다.
만성질환의 범위는 국가 또는 기관마다 제시하는 기준에 차이가 있으며, 우리나라에서는 만성질환의 범위를 명확하게 규정하고 있지는 않다. 본 연구에서는 만성질환의 범위를 파악하기 위해 국민건강통계, 국민건강영양조사, 의료서비스경험조사, 지역별 의료이용통계, 건강통계연보 6개 연구의 만성질환 범위를 비교하였다. 최종적으로는 6개 연구에서 모두 만성질환으로 포함하는 고혈압, 당뇨병과 3개 연구에서 공통적으로 포함하는 관절염을 본 연구의 만성질환으로 선정하였다. 또한 만성질환 유병변수로 고혈압, 당뇨병, 관절염에 대해 의사에게 진단받은 경험이 있는 경우로 정의하였다.
연령에 따라서 만성질환 유병과 건강과 관련된 생활습관의 실천 정도에 차이가 있다는 기존 연구[
먼저 데이터를 가공하는 과정을 거친 후, R (ver. 1.0.143)과 SPSS 25.0(IBM Co., Armonk, NY, USA) 프로그램을 사용해서 연관규칙분석과 통계적 분석 두 부분으로 분석을 진행하였다. 본 연구에서는 대상자의 생활습관 보유 유무와 질환 유병 유무를 기준으로 연관규칙분석을 진행하기 때문에 지역사회건강조사 데이터의 가중치를 고려하지 않았다. 이는 국내 보건의료 빅데이터를 활용하여 연관규칙분석을 진행한 기존연구[
연관규칙분석에서는 연령층 기준으로 데이터를 분류해서 각 연령층별로 고혈압, 당뇨병, 관절염에 대한 연관분석을 진행하였다. 연관규칙분석에서는 두 항목 간의 향상도가 1보다 클 경우, 두 항목은 서로 양의 상관관계가 있다는 것을 의미하기 때문에[
통계적 분석에서는 연령층 대상자의 변수별 분포를 파악하고 카이제곱검정을 통해 연관규칙의 통계적 유의성을 평가하였다. 그 다음으로 연관규칙 별로 민감도와 특이도 값을 구해서 연관규칙의 타당성을 검증하는 과정을 진행하였다. 마지막 분석단계에서는 연관규칙의 대표적 생활습관 군집을 예시로 해서 로지스틱 회귀분석을 통해 생활습관 군집과 개인특성 요인의 관련성을 파악하였다.
본 연구에서는 생활습관 보유 유무를 조건으로, 만성질환 유병 유무를 결과로 하여 연관규칙분석의 방향을 설정해서 분석을 진행하였다. 본 연구에서는 3개의 연령층을 대상으로 3개의 단일 만성질환에 대해 총 9번의 연관규칙분석을 하였다.
본 연구에서의 지지도는 ‘전체 대상자 중 특정 생활습관을 가진 대상자가 특정 만성질환을 앓고 있을 확률’을 의미한다. 신뢰도는 ‘특정 생활습관을 가진 대상자 중 특정 만성질환을 앓고 있을 확률’을 의미 한다. 또한 향상도는 ‘신뢰도에서 특정 만성질환을 앓고 있을 확률로 나눈 값’을 의미한다. 본 연구에서는 생활습관과 만성질환 유병이 유의한 연관성을 가지는 연관규칙을 찾는 것이 가장 중요하기 때문에 향상도가 가장 중요한 평가척도라고 할 수 있다.
연관규칙분석에서 도출한 연관규칙이 통계적으로 유의한지 평가하기 위해 각 연관규칙에 대해 카이제곱검정을 진행하고, 향상도 값과 카이제곱검정의 교차비(odds ratio, OR)를 비교하였다. 이를 통해 통계적으로도 유의한 연관규칙을 최종 선정하였다. 교차비는 두 변수 사이의 연관성 척도를 의미하며, 각 대각선 셀끼리 곱하기 때문에 교차비라고 한다. 향상도 값은 기준이 되는 생활습관 여부와 상관없이 전체 대상자를 기준으로 하기 때문에 항상 교차비보다 낮은 값을 나타낸다.
최종 선정된 각 연관규칙 별로 민감도와 특이도 값을 계산하여 연관규칙에 대한 타당성 검증 및 비교를 진행하였다. 민감도와 특이도는 주로 진단검사의 유용성이나 예측모델의 타당성을 평가할 때 사용되는 지표이다.
민감도는 특정 진단법을 사용했을 때 실제 양성인 사람을 양성으로 판단하는 비율[
특이도는 특정 진단법이 실제 음성인 사람을 음성으로 판단하는 비율[
대상자의 개인 특성에서는 모든 연령층에서 여성이 남성보다 많았고, 거주 지역에서는 서울특별시 거주자가 가장 많은 것으로 나타났다. 직업에서는 연령층별로 차이를 보였는데, 청장년층에서는 사무직이 45.4%, 중년층에서는 생산기능직이 29.4%, 노년층에서는 무직이 40.2%로 가장 많았다. 교육 수준에서는 모든 연령층에서 고등학교를 졸업한 대상자가 가장 많았다(
또한 연령대가 높아짐에 따라 만성질환을 앓고 있는 대상자의 비율이 현저하게 높아지는 현상을 보였다. 청장년층 3.9%, 중년층 23.1%, 노년층 54.2%가 고혈압을 앓고 있으며, 특히 노년층에서는 전체 노년층 대상자의 절반 이상이 고혈압을 앓고 있는 것으로 나타났다. 청장년층 1.4%, 중년층 9.3%, 노년층 23.7%는 당뇨병을 앓고 있고, 청장년층 1.1%, 중년층 8.7%, 노년층 27.4%는 관절염을 앓고 있는 것으로 나타났으며 두 질환의 연령대에 따른 유병 대상자 비율의 증가가 유사하게 나타났다(
청장년층에서는 다른 연령대에 비해 아침식사 결식(34.9%)에 해당되는 비율이 매우 높았고, 흡연(23.9%)과 과도한 음주(30.9%)의 비율도 높은 것으로 나타났다. 반면에 부적절한 수면(48.8%)의 비율은 다른 연령대보다 낮았다. 장년층에서는 다른 연령대에 비해 신체적 비활동(77.9%)과 부적절한 체중조절(28.2%)의 비율이 약간 높은 수치를 보였다. 노년층에서는 다른 연령대에 비해 신체적 비활동(84.4%)과 부적절한 수면(58.6%)의 비율이 높은 것으로 나타났다. 반면에 과도한 음주(6.9%), 아침식사 결식(3.4%)의 비율은 다른 연령대보다 매우 낮았고, 흡연(10.0%)의 비율도 낮은 것으로 나타났다(
본 연구의 만성질환을 대상으로 한 연관규칙분석에서는 유병대상자의 수를 고려하여 최소지지도 1%, 최소신뢰도 10%를 만족하고, 향상도 값이 1보다 큰 기준을 만족하는 생활습관 군집을 유의미한 연관 규칙으로 도출하였다. 또한 카이제곱검정을 통해 앞서 도출한 연관규칙의 통계적 유의성을 평가하여 최종적으로 유의미한 연관규칙을 선정하였다. 최종 선정된 연관규칙의 교차비 값은 모두 1보다 크며, 95% 유의수준에서 통계적으로 유의한 것으로 나타났다. 다음으로는 최종 선정한 만성질환 연관규칙별로 민감도와 특이도 값을 구해서 연관규칙 간의 타당성을 비교하였다.
고혈압에서는 청장년층 2개, 중년층 18개, 노년층 8개의 연관규칙이 최종 선정되었다(
고혈압 연관규칙에서 민감도가 가장 높은 노년층의 PI, IS 군집을 예시로 해서 본 연구에서의 민감도와 특이도 값을 설명하면 다음과 같다. 연관규칙이 고혈압을 앓고 있는 노년층 중에서 신체적 비활동, 부적절한 수면 생활습관을 가지고 있다고 판단할 확률은 51.2%이며, 고혈압을 앓고 있지 않은 노년층 중에서 해당 생활습관을 가지고 있지 않다고 판단할 확률은 51.5%이다. 청장년층에서는 HD, IW 군집의 민감도가 31.1%로 가장 높았고, CS, IW 군집의 특이도가 91%로 가장 높았다. 중년층에서는 PI, IS 군집의 민감도가 44.6%로 가장 높았고, CS, HD, IW 군집의 특이도가 97.4%로 가장 높았다. 노년층에서는 PI, IS 군집의 민감도가 51.2%로 가장 높았고, HD, PI, IW 군집의 특이도가 98.9%로 가장 높았다.
당뇨병에서는 중년층 8개, 노년층 4개의 연관규칙이 최종 선정되었으며, 중년층의 신체적 비활동과 부적절한 체중조절 생활습관의 향상도가 1.51로 당뇨병 유병과 연관성이 가장 높았다(
당뇨병 연관규칙에서는 중년층에서 CS, HD 군집의 민감도가 33.2%로 가장 높았고, CS, PI, IS 군집의 특이도가 97.4%로 가장 높았다. 노년층에서는 HD, PI 군집의 민감도가 27.8%, 특이도가 94.9%로 가장 높았다.
관절염에서는 중년층 3개, 노년층 4개의 연관규칙이 최종 선정되었으며, 노년층의 신체적 비활동, 부적절한 체중조절, 부적절한 수면 생활습관의 향상도가 1.42로 관절염 유병과 연관성이 가장 높았다(
관절염 연관규칙에서는 중년층에서 PI, IW 군집의 민감도가 28.9%로 가장 높았고, PI, IW, IS 군집의 특이도가 88%로 가장 높았다. 노년층에서는 PI, IS 군집의 민감도가 56.7%로 가장 높았고, PI, IW, IS 군집의 특이도가 88.2%로 가장 높았다.
각 연령층에서 모든 만성질환에 공통적으로 나타난 생활습관 군집을 대표 군집으로 선정해서 생활습관 군집과 개인특성 요인의 관련성을 파악하기 위해 다중 로지스틱 회귀분석을 진행하였다. 청장년층에서는 CS, IW 군집, 중년층에서는 PI, IW, IS 군집, 노년층에서는 PI, IW 군집을 선정하였다. 종속변수는 생활습관 군집이며, 설명변수에는 성별, 거주 지역, 직업, 교육수준을 포함하였다.
청장년층의 CS, IW 군집에서 해당 생활습관을 동시에 가지고 있을 확률은 여성(OR 0.04, 95% CI= 0.04-0.06)이 남성보다 통계적으로 유의하게 낮았고, 인천거주자(OR 1.25, 95% CI=1.07-1.47)가 서울거주자보다 높았다. 직업에서는 서비스판매직(OR 1.61, 95% CI=1.42-1.84)과 생산기능직(OR 1.43, 95% CI=1.27-1.61)은 사무직보다 해당 군집에 포함될 확률이 높게 나타난 반면에, 주부(OR 0.45, 95% CI= 0.25-0.80)와 무직(OR 0.65, 95% CI= 0.46-0.93)은 낮게 나타났다. 교육수준에서는 통계적으로 유의한 관련성을 보이는 개인특성 요인이 나타나지 않았다(
중년층의 PI, IW, IS 군집에서 해당 생활습관을 동시에 가지고 있을 확률은 여성(OR 0.67, 95% CI= 0.61-0.74)이 남성보다 통계적으로 유의하게 낮았다. 거주 지역에서는 인천거주자(OR 1.13, 95% CI=1.00-1.27)는 서울거주자보다 해당 생활습관을 동시에 가지고 있을 확률이 높은 반면에, 대구거주자(OR 0.87, 95% CI= 0.76-1.00)는 낮았다. 직업에서는 생산기능직(OR 0.80, 95% CI= 0.71-0.90)이 사무직보다 해당 군집에 포함될 확률이 낮게 나타났다. 교육수준에서는 초등학교 졸업(OR 0.75, 95% CI= 0.63-0.88)과 무학(OR 0.74, 95% CI= 0.62-0.88)이 대학원 이상 졸업보다 포함 확률이 낮았다(
노년층의 PI, IW 군집에서는 다른 생활습관 군집과 달리 여성(OR 1.33, 95% CI=1.18-1.51)이 남성보다 해당 생활습관을 동시에 가지고 있을 확률이 통계적으로 유의하게 높았다. 거주 지역에서는 부산거주자(OR 0.87, 95% CI= 0.79-0.97), 대구거주자(OR 0.79, 95% CI= 0.69-0.91), 인천거주자(OR 0.84, 95% CI= 0.73-0.95)가 서울거주자보다 해당 군집에 포함될 확률이 낮게 나타났다. 직업에서는 생산기능직(OR 0.66, 95% CI= 0.51-0.84), 주부(OR 0.72, 95% CI= 0.56-0.92), 무직(OR 0.73, 95% CI= 0.58-0.92)이 사무직보다 해당 군집에 포함될 확률이 낮게 나타났다. 교육수준에서는 통계적으로 유의한 관련성을 보이는 개인특성 요인이 나타나지 않았다(
본 연구에서는 다양한 사회적 요인의 변화로 인해 생활습관이 큰 영향을 미치는 만성질환의 유병률 증가와 이를 해결하기 위한 보건의료 빅데이터 활용 연구가 증가하고 있는 추세에 주목하였다.
이에 따라 본 연구에서는 지역사회건강조사 원시자료를 활용해서 생활습관 군집현상과 만성질환 유병의 연관성을 파악함으로써 맞춤형 만성질환 관리에 도움이 될 수 있는 기초자료를 제공하고자 하였다. 이러한 연구목적을 달성하기 위해 연관규칙분석을 통해 연령층 및 만성질환별 생활습관 군집 유형을 파악하고, 연관규칙의 유의성 평가 및 타당성 검증 과정을 거쳐 유의한 연관규칙을 도출하였다. 그 외에도 대표적 생활습관 군집을 예시로 하여 생활습관 군집에 영향을 미치는 개인특성 요인을 파악하였다.
연령층별로 대상자의 특성을 파악한 결과, 모든 연령층에서 2가지 생활습관을 가지고 있는 대상자의 비율이 가장 높게 나타났으며, 생활습관이 군집하는 경향이 있는 것으로 주장한 기존 연구와 일치한다[
또한 연관규칙분석 결과 만성질환 유병에 영향을 미치는 다양한 생활습관 군집들이 도출되었다. 본 연구의 유의한 연관규칙은 주로 두 가지 또는 세 가지의 생활습관 군집으로 구성되었고, 많게는 다섯 가지 생활습관 군집으로 구성된 연관규칙도 나타났다. 건강위험행위들의 연관성을 분석한 이전 연구에서도 대부분 1-2개[
모든 만성질환과 연령대에서 신체적 비활동과 부적절한 체중조절로 구성된 생활습관 군집이 가장 많이 나타났는데, 이는 만성질환 예방 및 관리를 위해서는 운동부족과 비만을 우선적으로 개선해야 함을 의미한다. 또한 모든 만성질환에서 세 연령층에 공통적으로 나타난 생활습관 군집도 있었고, 반대로 특정 연령층에서만 나타난 생활습관 군집도 존재하였다. 고혈압의 경우에는 과도한 음주와 부적절한 체중조절 군집과 흡연과 부적절한 체중조절 군집이 모든 연령층에서 나타난 반면에, 다른 연령대보다 유의한 연관규칙이 많이 도출된 중년층에서는 해당 연령대에서만 나타난 생활습관 군집들이 있었다. 당뇨병의 경우에는 노년층에서 나타난 생활습관 군집들이 중년층에서도 동일하게 나타났으며, 중년층에서는 이외에 몇 개의 생활습관 군집들이 더 도출되었다. 관절염의 경우에는 중년층에서 나타난 생활습관 군집들이 노년층에서도 동일하게 나타났으며, 노년층에서는 신체적 비활동과 부적절한 수면 군집이 추가적으로 나타났다. 공통적으로 나타난 생활습관 군집은 연령과 상관없이 특정 만성질환 관리를 위해 해당생활습관을 가장 우선적으로 개선해야 함을 의미하며, 특정 연령층에서만 나타난 생활습관 군집은 연령층의 특성을 고려하여 해당 생활습관을 개선해야 함을 의미한다.
도출된 연관규칙을 대상으로 민감도와 특이도 값을 계산해서 타당성을 검증하는 과정도 진행했으며, 모든 생활습관 군집의 특이도가 민감도보다 크게 나타났다. 민감도가 낮게 나타난 이유는 전반적으로 전체 대상자 중 만성질환을 앓고 있는 대상자의 수가 적었기 때문이다. 본 연구에서는 생활습관을 동시에 가지고 있는 대상자를 생활습관 군집에 포함했는데, 해당 생활습관 중 하나라도 가지고 있는 대상자를 군집에 포함하게 되면 민감도 값을 높일 수 있다.
이외에도 로지스틱 회귀분석을 통해 개인 특성과 대표 생활습관 군집으로 선정한 세 개 군집의 관련성을 파악한 결과 개인특성 요인 별로 군집에 포함될 확률에 통계적으로 유의한 차이가 있는 것으로 나타났다. 성별, 거주 지역, 직업은 세 개 군집에서 모두 유의한 관련성을 나타낸 반면에, 교육수준은 중년층의 생활습관 군집에서만 유의한 관련성을 보였다. 특히 직업 요인이 세 개의 생활습관 군집과 유의한 관련성을 보인 것은 사회경제적 계층요인이 만성질환 유병에 영향을 미치는 것으로 나타난 기존 연구의 결과와 유사하다[
본 연구에서 생활습관 군집을 파악하는 방법으로 연관규칙분석을 활용하였다는 점은 기존 연구에서 주로 관찰치 수와 기대치 수의 비(observed to expected ratio, O/E ratio) 또는 생활습관의 개수의 합을 이용하는 방법과 차별성을 가진다. 연관규칙분석은 O/E값과 달리 상호 배타적인 군집이 아니라 건강위험행위의 종류가 적은 군집부터 많은 행위를 포함하는 군집까지 모두 고려할 수 있다는 장점이 있다. 또한 건강 수준을 향상시키기 위한 생활습관 개선이 목적일 때에는 생활습관이 어떻게 연관되어 있는지 파악하는 것이 중요하기 때문에 생활습관 개수의 합을 이용하는 방법보다 연관규칙분석이 적합한 방법이다.
또한 본 연구에서 도출된 연관규칙은 생활습관과 만성질환 간에 특정한 관계를 보인다는 것을 의미하는데, 이는 만성질환 관리 및 예방을 위한 생활습관 교정에 중요한 시사점을 준다. 기존의 생활습관 개선 프로그램은 생활습관에 대한 전반적인 스크리닝 부족으로 인해 효과적인 개선 방법을 계획하지 못하는 경우가 많았다[
하지만 본 연구는 몇 가지 한계점을 가진다. 첫째, 본 연구에서는 대상자의 한 시점에서의 특성을 조사한 단면연구 자료를 활용했기 때문에 시간적 요인을 반영하지 못하였다. 일반적으로 만성질환은 다수의 생활습관 위험요인에 노출된 이후 발병시점까지 오랜 시간이 걸리는 특성이 있다. 대상자가 생활습관을 보유한 기간에 따라 만성질환에 미치는 영향에 차이가 있을 수 있다는 가능성을 고려하지 못하였다. 둘째, 본 연구에서 활용한 변수는 모두 자기기입식 설문을 통해 수집되었기 때문에 응답자의 주관성에 의존해야 한다는 단점이 있다. 응답자가 사회적으로 바람직한 생활습관을 고려해서 실제 자신의 흡연, 음주, 신체적 활동 여부 등과 다르게 응답했을 가능성이 있다. 셋째, 본 연구에서 정의한 생활습관 기준은 연구자에 따라 달라질 수 있으며, 그에 따라 연구 결과도 다르게 나타날 수 있다. 본 연구에서는 기존 보건지침과 문헌 등을 통해 특정 횟수 또는 시간의 충족 여부로 부정적생활습관을 정의했는데, 이 기준을 다르게 설정하면 도출되는 생활습관 군집의 수에 차이가 있을 수 있다.
이와 같은 한계점에도 불구하고 본 연구는 보건의료 빅데이터에 연관규칙분석을 적용하여 의미 있는 결과를 도출하는 것이 가능함을 제시하였다는 점에서 학문적 의의가 있다. 본 연구에서 적용한 분석방안은 다른 연도, 지역, 만성질환 등에 확장하여 적용할 수 있다는 장점이 있다. 향후 다양한 방향으로 분석을 확대하여 자료를 축적한다면 더 정확하고 신뢰성 높은 생활습관 개선 프로그램의 근거자료를 제시할 수 있을 것으로 기대된다.
No potential conflict of interest relevant to this article was reported.
Characteristics of the participants (n=60,584)
Variables | Young and middle aged (n = 21,717) | Middle aged (n=25,462) | The aged (n=13,405) | |
---|---|---|---|---|
Gender | ||||
Male | 10,317 (47.5) | |||
Female | 11,400 (52.5) | |||
Residence area | < 0.001 | |||
Seoul | 7,921 (36.5) | 8,351 (32.8) | 4,297 (32.1) | |
Busan | 4,251 (19.6) | 5,691 (22.4) | 3,325 (24.8) | |
Daegu | 2,167 (10.0) | 2,739 (10.8) | 1,565 (11.7) | |
Incheon | 2,723 (12.5) | 3,388 (13.3) | 1,960 (14.6) | |
Gwangju | 1,519 (7.0) | 1,688 (6.6) | 842 (6.3) | |
Daejeon | 1,523 (7.0) | 1,735 (6.8) | 786 (5.9) | |
Ulsan | 1,613 (7.4) | 1,870 (7.3) | 630 (4.7) | |
Occupation | < 0.001 | |||
Office worker | 9,851 (45.4) | 5,716 (22.4) | 441 (3.3) | |
Service worker | 3,380 (15.6) | 4,743 (18.6) | 640 (4.8) | |
Production worker | 3,278 (15.1) | 7,498 (29.4) | 2,252 (16.8) | |
Housewife | 3,520 (16.2) | 5,569 (21.9) | 4,682 (34.9) | |
Others | 436 (2.0) | 30 (0.1) | 0 (0.0) | |
Inoccupation | 1,252 (5.8) | 1,906 (7.5) | 5,390 (40.2) | |
Education level | < 0.001 | |||
Ineducation | 61 (0.3) | 138 (0.5) | 914 (6.8) | |
Elementary school | 881 (4.1) | 2,440 (9.6) | 3,605 (26.9) | |
Middle school | 1,454 (6.7) | 4,037 (15.9) | 2,426 (18.1) | |
High school | 7,184 (33.1) | 10,895 (42.8) | 3,920 (29.2) | |
Junior college | 3,794 (17.5) | 2,032 (8.0) | 552 (4.1) | |
Senior college | 7,101 (32.7) | 4,810 (18.9) | 1,650 (12.3) | |
Graduate school | 1,242 (5.7) | 1,110 (4.4) | 338 (2.5) | |
Chronic disease | ||||
Hypertension | < 0.001 | |||
Yes | 849 (3.9) | 5,876 (23.1) | 7,263 (54.2) | |
Diabetes | < 0.001 | |||
Yes | 313 (1.4) | 2,367 (9.3) | 3,175 (23.7) | |
Arthritis | < 0.001 | |||
Yes | 231 (1.1) | 2,225 (8.7) | 3,673 (27.4) | |
Lifestyle | ||||
Current smoking | < 0.001 | |||
Yes | 5,199 (23.9) | 5,021 (19.7) | 1,339 (10.0) | |
Heavy drinking | < 0.001 | |||
Yes | 6,708 (30.9) | 5,690 (22.3) | 924 (6.9) | |
Physical inactivity | < 0.001 | |||
Yes | 16,848 (77.6) | 19,846 (77.9) | 11,318 (84.4) | |
Breakfast skipping | < 0.001 | |||
Yes | 7,584 (34.9) | 3,657 (14.4) | 452 (3.4) | |
Inappropriate weight control | <0.05 | |||
Yes | 5,854 (27.0) | 7,168 (28.2) | 3,749 (28.0) | |
Inappropriate sleep | < 0.001 | |||
Yes | 10,590 (48.8) | 14,169 (55.6) | 7,853 (58.6) |
All values are presented as n (%).
Chi-square test for differences among age groups.
Validation of hypertension’s significant association rules
Condition | Result | Object number | Support (%) | Confidence (%) | Lift | OR | Sensitivity (%) | Specificity (%) | ||
---|---|---|---|---|---|---|---|---|---|---|
Young and middle aged | ||||||||||
HD, IW | Hypertension | 264 | 1.2 | 10.8 | 2.76 | 0.000 | 3.86 | 31.1 | 90.0 | |
CS, IW | 212 | 1.0 | 10.4 | 2.67 | 0.000 | 3.48 | 25.0 | 91.0 | ||
Middle aged | ||||||||||
HD, IW | Hypertension | 731 | 2.9 | 36.4 | 1.58 | 0.000 | 2.04 | 33.6 | 93.5 | |
IW, IS | 1,492 | 5.9 | 36.1 | 1.56 | 0.000 | 2.18 | 14.8 | 86.5 | ||
PI, IW | 1,975 | 7.8 | 35.3 | 1.53 | 0.000 | 2.23 | 20.3 | 81.5 | ||
CS, IW | 461 | 1.8 | 31.8 | 1.38 | 0.000 | 1.60 | 25.4 | 95.0 | ||
BS, IW | 338 | 1.3 | 31.6 | 1.37 | 0.000 | 1.57 | 12.4 | 96.3 | ||
HD, IS | 869 | 3.4 | 27.4 | 1.19 | 0.000 | 1.30 | 7.8 | 88.3 | ||
HD, PI | 1,190 | 4.7 | 27.4 | 1.18 | 0.000 | 1.32 | 5.8 | 83.9 | ||
PI, IS | 2,618 | 10.3 | 23.8 | 1.03 | 0.022 | 1.07 | 44.6 | 57.1 | ||
HD, PI, IW | 568 | 2.2 | 36.8 | 1.59 | 0.000 | 2.04 | 4.7 | 95.0 | ||
HD, IW, IS | 427 | 1.7 | 36.5 | 1.58 | 0.000 | 1.99 | 6.2 | 96.2 | ||
PI, IW, IS | 1,169 | 4.6 | 36.3 | 1.57 | 0.000 | 2.13 | 7.9 | 89.5 | ||
CS, HD, IW | 258 | 1.0 | 33.8 | 1.46 | 0.000 | 1.73 | 7.3 | 97.4 | ||
CS, IW, IS | 275 | 1.1 | 32.1 | 1.39 | 0.000 | 1.60 | 4.4 | 97.0 | ||
CS, PI, IW | 365 | 1.4 | 31.8 | 1.38 | 0.000 | 1.59 | 4.7 | 96.0 | ||
PI, BS, IW | 277 | 1.1 | 31.5 | 1.37 | 0.000 | 1.56 | 9.7 | 96.9 | ||
HD, PI, IS | 663 | 2.6 | 27.5 | 1.19 | 0.000 | 1.29 | 11.3 | 91.1 | ||
CS, HD, PI | 467 | 1.8 | 24.9 | 1.08 | 0.048 | 1.12 | 19.9 | 92.8 | ||
HD, PI, IW, IS | 326 | 1.3 | 36.4 | 1.58 | 0.000 | 1.96 | 5.5 | 97.1 | ||
The aged | ||||||||||
HD, IW | Hypertension | 206 | 1.5 | 68.7 | 1.27 | 0.000 | 1.88 | 2.8 | 98.5 | |
PI, IW | 2,107 | 15.7 | 66.9 | 1.23 | 0.000 | 2.00 | 29.0 | 98.3 | ||
IW, IS | 1,475 | 11.0 | 66.6 | 1.23 | 0.000 | 1.86 | 20.3 | 87.9 | ||
CS, IW | 174 | 1.3 | 61.9 | 1.14 | 0.008 | 1.38 | 2.4 | 83.1 | ||
PI, IS | 3,717 | 27.7 | 55.5 | 1.02 | 0.002 | 1.11 | 51.2 | 51.5 | ||
HD, PI, IW | 173 | 1.3 | 71.5 | 1.32 | 0.000 | 2.15 | 2.4 | 98.9 | ||
PI, IW, IS | 1,278 | 9.5 | 67.7 | 1.25 | 0.000 | 1.94 | 17.6 | 98.6 | ||
CS, PI, IW | 148 | 1.1 | 63.2 | 1.17 | 0.005 | 1.46 | 2.0 | 90.1 |
OR, odds ratio; CS, current smoking; HD, heavy drinking; PI, physical inactivity; IW, inappropriate weight control; IS, inappropriate sleep; BS, breakfast skipping.
Validation of diabetes’ significant association rules
Condition | Result | Object number | Support (%) | Confidence (%) | Lift | OR | Sensitivity (%) | Specificity (%) | ||
---|---|---|---|---|---|---|---|---|---|---|
Middle aged | ||||||||||
PI, IW | Diabetes | 787 | 3.1 | 14.1 | 1.51 | 0.000 | 1.89 | 18.9 | 79.2 | |
IW, IS | 531 | 2.1 | 12.8 | 1.38 | 0.000 | 1.56 | 10.6 | 84.4 | ||
CS, PI | 492 | 1.9 | 12.4 | 1.33 | 0.000 | 1.47 | 20.8 | 84.9 | ||
CS, IS | 339 | 1.3 | 12.1 | 1.30 | 0.000 | 1.40 | 22.4 | 89.3 | ||
CS, HD | 251 | 1.0 | 10.5 | 1.13 | 0.037 | 1.16 | 33.2 | 90.7 | ||
HD, PI | 447 | 1.8 | 10.3 | 1.10 | 0.015 | 1.14 | 14.3 | 83.1 | ||
PI, IW, IS | 444 | 1.7 | 13.8 | 1.48 | 0.000 | 1.69 | 11.7 | 88.0 | ||
CS, PI, IS | 276 | 1.1 | 12.5 | 1.35 | 0.000 | 1.45 | 18.8 | 91.7 | ||
The aged | ||||||||||
PI, IW | Diabetes | 882 | 6.6 | 28.0 | 1.18 | 0.000 | 1.35 | 18.9 | 77.8 | |
HD, PI | 201 | 1.5 | 27.7 | 1.17 | 0.009 | 1.25 | 27.8 | 94.9 | ||
IW, IS | 599 | 4.5 | 27.0 | 1.14 | 0.000 | 1.24 | 6.3 | 84.2 | ||
PI, IW, IS | 523 | 3.9 | 27.7 | 1.17 | 0.000 | 1.28 | 16.5 | 86.7 |
OR, odds ratio; CS, current smoking; HD, heavy drinking; PI, physical inactivity; IW, inappropriate weight control; IS, inappropriate sleep; BS, breakfast skipping.
Validation of arthritis’ significant association rules
Condition | Result | Object number | Support (%) | Confidence (%) | Lift | OR | Sensitivity (%) | Specificity (%) | ||
---|---|---|---|---|---|---|---|---|---|---|
Middle Aged | ||||||||||
IW, IS | Arthritis | 481 | 1.9 | 11.6 | 1.33 | 0.000 | 1.48 | 21.6 | 84.3 | |
PI, IW | 644 | 2.5 | 11.5 | 1.32 | 0.000 | 1.50 | 28.9 | 79.0 | ||
PI, IW, IS | 380 | 1.5 | 11.8 | 1.35 | 0.000 | 1.48 | 17.1 | 88.0 | ||
The aged | Arthritis | |||||||||
IW, IS | 829 | 6.2 | 37.4 | 1.36 | 0.000 | 1.75 | 22.6 | 52.6 | ||
PI, IW | 1,139 | 8.5 | 36.2 | 1.32 | 0.000 | 1.73 | 31.0 | 79.4 | ||
PI, IS | 2,081 | 15.5 | 31.1 | 1.13 | 0.000 | 1.45 | 56.7 | 85.7 | ||
PI, IW, IS | 735 | 5.5 | 38.9 | 1.42 | 0.000 | 1.86 | 20.0 | 88.2 |
OR, odds ratio; CS, current smoking; HD, heavy drinking; PI, physical inactivity; IW, inappropriate weight control; IS, inappropriate sleep; BS, breakfast skipping.
Logistic regression result of representative clustering
Clustering |
Young and middle age’s CS, IW |
Middle age’s PI, IW, IS |
The age’s PI, IW |
|
---|---|---|---|---|
Variables | OR | OR | OR | |
Gender | ||||
Male | 1.00 | 1.00 | 1.00 | |
Female | 0.04 |
0.67 |
1.33 |
|
Residence area | ||||
Seoul | 1.00 | 1.00 | 1.00 | |
Busan | 1.12 | 0.91 | 0.87 |
|
Daegu | 1.17 | 0.87 |
0.79 |
|
Incheon | 1.25 |
1.13* | 0.84 |
|
Gwangju | 0.97 | 0.89 | 0.85 | |
Daejeon | 1.01 | 0.87 | 0.93 | |
Ulsan | 1.12 | 0.95 | 0.98 | |
Occupation | ||||
Office worker | 1.00 | 1.00 | 1.00 | |
Service worker | 1.61 |
0.92 | 0.76 | |
Production worker | 1.43 |
0.80 |
0.66 |
|
Housewife | 0.45 |
0.96 | 0.72 |
|
Others | 0.65* | 1.47 | ||
Inoccupation | 0.90 | 0.80 |
0.73 |
|
Education level | ||||
Graduate school | 1.00 | 1.00 | 1.00 | |
Senior college | 0.00 | 0.99 | 1.06 | |
Junior college | 0.74 | 0.44 | 0.65 | |
High school | 1.12 | 1.13 | 0.98 | |
Middle school | 0.89 | 0.92 | 0.91 | |
Elementary school | 0.87 | 0.75 |
0.81 | |
Ineducation | 1.01 | 0.84 | 0.64 |
OR, odds ratio; CS, current smoking; HD, heavy drinking; PI, physical inactivity; IW, inappropriate weight control; IS, inappropriate sleep; BS, breakfast skipping.