보건의료 분야 빅데이터 활용 실태 및 결합데이터 요구도 조사

A Survey on the Utilization of Big Data in the Healthcare Sector and the Demand for Integrated Data

Article information

J Health Info Stat. 2024;49(1):62-69

Publication date (electronic) : 2024 February 28

doi : https://doi.org/10.21032/jhis.2024.49.1.62

Jahye Jung ¹

, Hoyol Jhang ¹

, Kyunik Park ²

, Ji Eun Yun^,³

¹Researcher, Division of Healthcare Research, National Evidence-based Healthcare Collaborating Agency, Seoul, Korea

²Associate Researcher, Division of Healthcare Research, National Evidence-based Healthcare Collaborating Agency, Seoul, Korea

³Associate Research Fellow, Division of Healthcare Research, National Evidence-based Healthcare Collaborating Agency, Seoul, Korea

정자혜¹

, 장호열¹

, 박균익²

, 윤지은^,³

¹한국보건의료연구원 보건의료연구본부 연구원

²한국보건의료연구원 보건의료연구본부 주임연구원

³한국보건의료연구원 보건의료연구본부 부연구위원

Corresponding author: Ji Eun Yun. 400 Neungdong-ro, Gwangin-gu, Seoul 04933, Korea Tel: +82-2-2174-2754, E-mail: jeyun@neca.re.kr

*The first two authors contributed equally to this work.

*This study was supported by the National Evidence-based Healthcare Collaborating Agency in South Korea (NECA-S-23-003, 004).

*This study was supported by research funds from the the Korea Healthcare Bigdata Platform Research Project of the Ministry of Health and Welfare.

No potential conflict of interest relevant to this article was reported.

Received 2024 January 24; Revised 2024 February 26; Accepted 2024 February 28.

Trans Abstract

Objectives

To investigate the status of secondary data and big data platform utilization and the demand for integrated data in the health care sector.

Methods

An online survey was conducted using a structured questionnaire targeting members of six academic societies in the healthcare field. A total of 220 researchers responded to the survey.

Results

88.2% of respondents said they had experience using secondary data sources in the healthcare field, and 19.0% responded that they had experience linking data using the healthcare big data platform. Among the data in the health and medical field, the most used dataset was health insurance claims data, and if linking between dataset, the most desired linked data type is ‘National Health and Nutrition Examination Survey-Health Insurance Claims Data–National Health Examination-Death Information’. The advantages of linked data on big data platforms were ‘large volume of big data or representative’, ‘diversity of data’, and ‘long-term follow-up’. The major items requiring improvement were ‘delay in time to provide data’, ‘limitation of data provision range’, and ‘low linkage rate between dataset’.

Conclusions

To promote the use of linked data in the health care field, comprehensive efforts are needed, including rapid data provision, improvement of the combination rate, standardization of data, and establishment of ethical guidelines.

Keywords: Big data; Linked data; Healthcare; Survey; Health services needs and demand

서 론

보건의료 분야는 빅데이터의 잠재적 가치와 활용 가능성이 높은 영역으로 평가되고 있다. 보건의료 분야에서 빅데이터는 환자 진단, 맞춤형 치료, 질병 예방 등 다양한 영역에서 혁신적인 변화를 불러오고 있다. 데이터 분석 기술의 발전에 따라 진단, 치료, 예방 분야에서 데이터 분석 및 활용의 중요성이 확대되고 있으며, 보건의료 분야에서 빅데이터 활용이 부각되고 있다[1]. 전 세계적으로 보건의료 분야의 공공기관 및 의료기관의 데이터는 의미있는 자료로 재생산되어 국민과 연구자, 정책 결정자들에게 제공되고 있으며, 보건의료 분야는 특히 다른 분야에 비해 국가 단위로 생산되는 자료가 많다. 미국 국립보건통계센터(National Center for Health Statistics, NCHS)는 국가의 공식적인 통계를 수집하고 배포하는 것 외에도 주요 통계 데이터 소스와 연결하는 데이터 연계 프로그램을 개발해 왔고[2], 광범위한 국가적 보건의료 데이터셋(dataset)을 보유하고 있는 영국의 경우 NHS England (구, NHS Digital)에 의해 데이터 연계가 이루어지고 있다[3]. 싱가포르의 경우 최근 국가 단위의 플랫폼(TRUST)을 개발하여 건강 관련 연구와 데이터를 신속하고 안전한 방식으로 통합하고 활용할 수 있는 서비스를 제공하고 있다[4].

우리나라에서는 이미 수십 년 전부터 개별 기관이 보유한 데이터를 활용한 연구가 활발하게 진행되고 있으며, 전체 국민의 의료 이용을 기반으로 한 국민건강보험공단 및 건강보험심사평가원의 대규모 자료원은 우리나라 실제 보건의료 상황에 대한 실태 파악을 위해 활발하게 활용되고 있다[5]. 또한, 개별 자료원의 활용뿐 아니라 기관 간 자료를 결합하여 활용하는 사례도 늘어나고 있는데, 각 기관이 보유하고 있는 데이터를 결합한다면 효과적인 의료 협업이 가능해지며, 신속 정확한 의사결정을 지원할 수 있다. 다양한 정보를 결합함으로써 환자의 질병 패턴을 보다 더 잘 파악하고 예측할 수 있으며, 맞춤형 치료 및 질병 예방 전략을 개발하는 데 도움을 줄 수 있다. 한국의 보건의료 관련 기관은 각자 고유한 데이터를 보유하고 있고, 데이터에 대한 연구자의 수요가 증가하면서 기관 간 자료를 결합한 연계데이터에 대한 수요 또한 증가하였다. 이를 해결하기 위해 정부는 보건의료 빅데이터 플랫폼 사업을 시행하여 다양한 공공기관이 보유한 이차자료원을 결합한 형태로 연구자들이 활용할 수 있도록 지원하고 있다[6].

최근 데이터 3법이 통과하고, 보건의료 데이터 활용 가이드라인이 제·개정 되면서 공공데이터의 활용을 활성화하고자 많은 노력이 있었다. 이와 더불어 정부는 보건의료 분야 정부 및 공공(의료)기관에서 보유하고 있는 의료 데이터를 보건의료 정책연구, 의학 연구, 의료기술 연구 등의 활용에 지원하기 위해 보건의료 빅데이터 플랫폼 사업을 수행 중이다. 보건의료 빅데이터 플랫폼 사업은 보건의료 공공데이터를 결합·가명 처리하여 공공 목적의 연구에 활용할 수 있도록 연구자에게 개방하는 시스템이다[5]. 국내 여러 기관 및 다양한 영역에서 질 높은 이차자료원을 생산하고 있음에도 불구하고 자료원 간 결합데이터는 적극적으로 활용되지 못하고 있는 실정이다. 또한, 개별 기관 간의 자료를 결합하기 위해 결합전문기관 지정을 통해 자료제공을 지원하고 있으나 결합데이터 신청 및 구축 단계에서 많은 시간이 소요된다는 점, 결합키 반복 생성 및 추가 가명처리 등 절차의 복잡성 및 지연 등으로 인한 한계점 등이 꾸준히 지적되고 있다[7].

국내 보건의료 결합데이터의 활용을 활성화하기 위해서는 현재 당면하고 있는 문제점 및 개선점을 파악하여 실효성 있는 정책을 마련하는 것이 필요하다. 따라서, 본 연구는 다양한 데이터의 결합을 신속하고 정확하게 제공하기 위해 보건의료 분야 연구자들을 대상으로 이차자료원 및 보건의료 빅데이터 플랫폼 사용 현황을 파악하고, 이용 만족도 및 요구도를 조사하고자 하였다.

연구 방법

연구대상 및 자료수집

보건의료 분야 6개 학회(대한의학회, 한국보건행정학회, 한국역학회, 대한예방의학회, 한국보건정보통계학회, 대한의료정보학회) 소속 회원 대상으로 설문조사업체 및 해당 학회 사무국을 통해 설문조사를 시행하였다. 조사대상자는 학회 공지사항 게시글 또는 대상자 이메일 발송을 통해 설문 대상자 모집을 진행하였으며, 구조화된 설문지에 의한 온라인 조사(web-mobile survey)로 시행되었다. 연구대상자 동의는 설문 링크 전송 시 설문 첫 화면에 설문 안내문을 제시하여 대상자에게 설문 참여 동의 의사 확인 후 동의자에 한해 설문조사를 진행하였다. 본 연구는 한국보건의료연구원 기관생명윤리위원회의 승인(IRB No.: NECAIRB23-006)을 받은 후 수행되었다.

설문지 항목

본 설문은 국내 보건의료 연구자들의 이차자료원 및 보건의료 빅데이터 플랫폼 이용 현황 및 만족도와 공공자료원 연계 우선순위 등에 대한 요구도 조사를 위해 문항이 개발되었다. 설문지는 크게 세 가지 영역으로 구성되었으며, 3개 영역은 다음과 같다: (A) 보건의료 분야 이차자료원 단독 사용 실태 및 만족도; (B) 빅데이터 플랫폼(공공자료원 연계) 사용 현황 및 요구도; (C) 조사대상자 특성. 이차자료원 및 보건의료 빅데이터 플랫폼에 대한 범위 설정 및 이해도를 높이기 위해 각각에 대한 설명자료를 추가하였다. 본 설문조사에서 이차자료원은 CDM, 병원 자료 등은 포함되지 않고, 공공자료원에 한하여 응답하도록 하였다. 또한, 보건의료 빅데이터 플랫폼을 통해 연계할 수 있는 자료원에 대하여 구체적으로 제시해 주었다. 설문조사의 항목 수는 총 18개였으며, 이차자료원 및 플랫폼 이용자에 한해 답변하는 문항들이 있어 문항에 따라 조사대상자 수가 달랐다.

통계분석

수집된 자료는 editing, coding 등의 과정을 거쳐 통계 패키지 SPSS 24.0 (IBM Corp., Amonk, NY, USA) 프로그램을 활용하여 전산 처리하였고, 열(row)에 따라 모든 백분율(%)을 산출하였다. 5점 Likert 척도의 기본적인 100점 만점 환산은 매우 만족 5점(100.0), 만족 4점(75.0), 보통 3점(50.0), 불만족 2점(25.0), 매우 불만족 1점(0.0)으로 하였다. 자료원 간 데이터 결합 현황 및 희망 연계자료원 분석은 사회연결망분석도구인 UCINET을 이용하여 그림으로 나타내었다. 표기의 크기는 이용 빈도, 선의 굵기는 연계 빈도를 의미하며 표기가 클수록 자료 이용 빈도가 높고, 선이 굵을수록 두 자료가 많이 연계됨을 의미한다. 연결선의 색상은 두 자료의 연계 빈도를 의미하며 20회 미만 연계된 자료는 회색, 50회 이상은 붉은색으로 표기하였다. 본 연구에서는 자료가 얼마나 긴밀하게 연결되어 있는지를 측정하는 응집성 지표와 각 자료가 연결망 내에서 어떤 위치를 가지는지에 대해 선택된 횟수를 고려하여 측정하는 연결중앙성 값을 제시하였다.

연구 결과

조사대상자의 특성 및 빅데이터 이용 현황

설문조사는 2023년 5월 12일부터 6월 5일까지 3주간 진행되었다. 설문조사에 응답한 대상자 수는 총 220명이었다. 조사대상자의 대다수는 대학 및 의료기관(75.5%) 또는 공공기관(15.5%)의 소속이었다(Table 1). 대상자 특성별로 남성에 비해 여성 응답률이 높았으며, 연구 수행 시 주로 담당하는 역할의 경우 연구책임자(36.8%), 자료분석자(28.6%), 공동연구자(26.4%) 순으로 많았다. 조사대상자 중 194명(88.2%)이 보건의료 분야 이차자료원을 활용한 경험이 있다고 응답하였으며, 이 중 보건의료 빅데이터 플랫폼을 통한 연계자료 사용 경험은 28명(19.0%)만 있다고 응답하였다.

Table 1

Characteristics of the respondents (n=220)

보건의료 빅데이터 장점 및 개선 사항

이차자료원

보건의료 분야 이차자료원을 활용한 경험이 있는 연구자가 가장 많이 활용한 자료원은 국민건강보험공단 및 건강보험심사평가원의 건강보험 청구자료였고, 다음으로는 질병관리청의 KoGES 기반 통합자료와 국민건강영양조사였다. 이차자료원을 활용한 경험이 있는 연구자를 대상으로 조사한 결과, 보건의료 분야 이차자료원의 주요 장점은 ‘대용량 빅데이터(표본의 크기) 또는 대표성’으로 1순위 기준 79.9%, 1+2+3순위 기준 93.8%의 이용자가 응답하였다. 다음으로는 ‘장기간의 코호트 자료를 이용한 추적(1순위 기준, 12.9%)’, ‘데이터 이용 절차의 용이성(2.1%)’ 등의 순이었다. 반면 ‘데이터 제공의 신속성(7.7%)’은 상대적으로 부족한 것으로 조사되었다(Table 2).

Table 2

Advantages of healthcare secondary data and big data platform

보건의료 분야 이차자료원의 아쉬운 항목으로는 1순위, 1+2+3순위 모두 ‘데이터 제공의 신속성’에 가장 많이 응답하였다(1순위 기준 51.0%, 1+2+3순위 기준 66.6%). 다음으로는 ‘제한된 데이터 제공 범위의 확대(1순위 기준 21.6%)’, ‘데이터 이용 절차의 용이성(13.9%)’ 등의 순이었다(Table 3).

Table 3

Major improvements in healthcare secondary data and big data platform data

빅데이터 플랫폼 연계 자료

데이터 연계 경험이 있는 연구자가 평가한 의료분야 빅데이터 플랫폼 연계 자료의 주요 장점은 이차자료원과 마찬가지로 ‘대용량 빅데이터 또는 대표성(1순위 기준 64.3%)’이었다. 다음은 1순위를 기준으로 ‘데이터 내용의 다양성(자료 간 연계, 변수의 다양화 등) (14.3%)’, ‘장기간의 코호트 자료를 이용한 추적(7.1%)’ 등의 순이었다(Table 2).

빅데이터 플랫폼 연계 자료의 주요 개선 사항으로는 1순위 기준 ‘데이터 제공의 신속성(57.1%)’이 가장 높았으며, 그다음으로는 ‘가명처리로 인한 결합률 저하 개선’을 주요 개선사항으로 꼽았다. 1+2+3순위 기준 가장 많이 응답한 항목은 ‘제한된 데이터 제공 범위의 확대(50.0%)’였다(Table 3).

보건의료 분야 희망 연계 자료원

현재 보건의료 빅데이터 플랫폼 사업에서 제공 중인 9개 기관의 20개 데이터셋 중에서 가장 연계가 필요한 자료원을 조사한 결과, 건강보험심사평가원의 ‘건강보험 청구자료’가 62.3%로 가장 많이 응답하였으며, 다음으로는 국민건강보험공단의 ‘일반건강검진(53.2%)’, 질병관리청의 ‘국민건강 영양조사(52.7%)’, 통계청의 ‘사망원인자료(52.3%)’ 등의 순이었다(Figure 1). 연결중앙성 값을 분석하였을 때도 20개 자료원 중 가장 많이 연계를 희망하는 단일자료원으로는 건강보험 청구자료가 1위로 분석되었다.

Figure 1

Individual data sources that health care researchers wish to link to. KDCA, Korea Disease Control and Prevention Agency; KNHANES, Korean National Health and Nutrition Survey; NIP, National Immunization Program; KoGES, Korean Genome and Epidemiology Study; NHIS, National Health Insurance Service; HIRA, Health Insurance Review & Assessment Service; NCC, Nation Cancer Center; KOSTAT, Statistics Korea; KONOS, Korean Network for Organ Sharing; NRC, National Rehabilitation Center; NMC, National Medical Center; NHIMC, National Health Insurance Medical Center.

사회연결망분석도구인 UNINET을 이용하여 조사에 참여한 연구자가 희망하는 이차자료원 자료연계를 분석한 결과는 Figure 2와 같다. 보건의료 연구자가 공공기관 9개 기관의 자료원을 이용하여 연계하는 연구를 한다고 가정할 때 가장 연계가 필요하다고 생각하는 자료원 중 가장 많이 언급된 자료는 ‘건강보험 청구자료’, ‘사망원인자료’, ‘일반건강검진’이었다. 중앙성 지표 중 선택한 횟수를 고려하는 연결중앙성 값을 분석한 결과, 상위 5위에 포함된 자료는 건강보험 청구자료, 사망원인자료, 일반건강검진자료, 사망정보, 국민건강영양조사자료 순이었다. 추가적으로, 자료가 얼마나 긴밀하게 연결되어있는지를 측정하는 응집성 지표의 경우, 본 조사의 모든 자료가 최소 1회씩은 모두 상호 연결되어 밀도와 포괄성은 1.0이었다.

Figure 2

Combination of linked data sources desired by health care researchers. KDCA, Korea Disease Control and Prevention Agency; KNHANES, Korean National Health and Nutrition Survey; NIP, National Immunization Program; KoGES, Korean Genome and Epidemiology Study; NHIS, National Health Insurance Service; HIRA, Health Insurance Review & Assessment Service; NCC, Nation Cancer Center; KOSTAT, Statistics Korea; KONOS, Korean Network for Organ Sharing; NRC, National Rehabilitation Center; NMC, National Medical Center; NHIMC, National Health Insurance Medical Center. The sample size means the frequency of use, the thickness of the line means the frequency of linkage, and the color of the connection line means the frequency of linkage of the two data (Less than 20 times linked data: gray, more than 50 times: red).

가장 선호하는 연계 자료원 조합으로는 자료제공기관 단위로 분석하였을 때 ‘질병관리청-국민건강보험공단’이 가장 많았고, 자료원 단위로 분석하였을 때 ‘국민건강영양조사-건강보험 청구자료’를 가장 선호하는 것으로 분석되었다. 다음으로 연구자가 희망하는 자료원 간 조합으로는 ‘국민건강영양조사-건강보험 청구자료-일반건강검진’ 또는 ‘국민건강영양조사-건강보험 청구자료-일반건강검진-사망자료’, ‘ KoGES 기반 통합자료-일반건강검진’ 등 자료 결합을 선호하는 것으로 조사되었다.

고 찰

본 연구에서는 보건의료 분야의 다양한 데이터의 결합을 신속하고 정확하게 제공하기 위하여 실제 보건의료 분야 연구자들의 이차자료원 및 보건의료 빅데이터 플랫폼 이용 현황 및 만족도를 조사하고, 공공자료원 연계 우선순위 등에 대한 요구도를 파악하였다. 보건의료 분야 6개 학회의 회원을 대상으로 설문조사한 결과, 조사에 참여한 연구자 중 88.2%가 보건의료 분야 이차자료원을 활용한 경험이 있다고 응답하였다. 이차자료원 이용 경험이 있는 연구자의 보건의료 빅데이터 플랫폼의 인지도는 75.8%로 높은 수준이었으나, 그중 실제로 보건의료 빅데이터 플랫폼을 통해 데이터를 연계한 경험이 있다고 응답한 비율은 19.0%로 낮았다. 이는 보건의료 빅데이터 플랫폼 사업이 2018년 시범사업을 계기로 실제 결합데이터를 활용하기 시작하였으므로 사업에 참여한 연구자들의 수가 한정적일 수밖에 없는 현실로 인식된다[5].

보건의료 분야 연구자들이 이차자료원을 사용하는 이유 및 큰 장점이라고 응답한 항목은 ‘대용량 빅데이터 또는 대표성’, ‘장기간의 코호트 자료를 이용한 추적’이었다. 선행연구들에서도 언급된 바와 같이 이차자료원은 비용 효율성과 편리성 측면에 있어 큰 장점이 있으며, 자료 자체가 대표성을 가질 가능성이 높고, 자료수집 단계에서 응답률과 같은 사유로 인해 편향될 가능성이 적은 자료들이며, 대부분 대규모 자료를 제공한다는 점에서 유리하다[8,9]. 보건의료 빅데이터 플랫폼의 장점으로는 일반적인 이차자료원의 장점과 유사하게 ‘대용량 빅데이터 또는 대표성’, ‘장기간의 코호트 자료를 이용한 추적’, ‘데이터 내용의 다양성’이 언급되었다. 이는 국가 주도의 결합데이터를 제공하고 있는 국외 사례들에서도 확인할 수 있으며, 특히 미국의 NCHS 결합데이터와 같이 설문조사 및 청구데이터 등을 연계하여 30년 이상 장기간 추적한 자료를 제공함으로써 자료의 유연성 및 다양성을 확보하였을 뿐 아니라 연구자들에게 보다 더 질 높고 다양한 기회를 제공한 사례를 확인할 수 있었다[10].

국외 보건의료 분야에서는 실사용데이터 및 실사용근거에 대한 요구도가 급격히 증가하면서 이에 대응하기 위한 정책 및 시스템이 개발되어 추진되고 있으며[11,12], 주요 국가들에서는 국가 단위의 결합자료가 생성되어 제공되고 있다. 미국은 크게 국립보건통계센터와 연방 및 주정부 기관과의 결합데이터, 국립암센터의 암 환자 자료인 Surveillance, Epidemiology, and End Results (SEER) 데이터와 메디케어 및 메디케이드 센터(Centers for Medicare & Medicaid Services, CMS)의 데이터를 결합하여 SEER-CMS 등의 형태로 개인정보를 비식별화하여 연구자에게 제공하고 있다[13]. NCHS는 개인과 가구를 대상으로 건강 행태 및 영양조사에 대한 설문조사 결과 데이터를 보유하고, 통계청의 국가 사망 지표, CMS의 데이터, 주택도시 개발부의 데이터 등의 공공데이터를 결합하여 제공한다. 영국은 크게 NHS England의 보유 데이터 간의 결합데이터와 임상 진료 연구자료 연계체계(Clinical Practice Research Datalink, CPRD)의 진단, 증상, 처방 등의 임상 정보 데이터, 또는 2차 진료 및 기타 건강 및 지역 기반 데이터와의 결합데이터를 제공하고 있다. NHS England는 영국의 보건의료 분야에서 생성된 빅데이터 전체 데이터를 보유하고 있으며 세부 데이터 간 결합을 진행하고 제공하고 있다[3].

국내에서도 빅데이터 및 결합자료 활용의 중요성이 대두되면서 전 국민 대상의 행정 청구 자료와 실제 임상 현장에서 수집되는 자료 등과 같은 보건의료 빅데이터가 수집 및 관리되고 있으나 이를 활용하기 위한 규정과 제도가 구체적으로 마련되어 있지 않아 여전히 데이터 활용에 대한 장벽이 존재한다[11]. 본 연구에서 이차자료원 및 보건의료 빅데이터 플랫폼에서 주요하게 개선되어야 하는 항목으로는 ‘데이터 제공의 신속성’과 ‘제한된 데이터 제공 범위 개선’을 공통적으로 많이 응답하였다. 이차자료원의 특성상 구체적이고 특정한 연구 목적 하에 수집된 자료가 아니므로 연구자들이 추구하는 목적에 따라 이차자료원을 활용하는 데 제한점이 존재한다. 최근 보건의료 빅데이터 플랫폼 사업에서는 데이터 제공범위를 확대하여 다양한 데이터를 제공하고자 하였으며, 기존 4개소(질병관리청, 국민건강보험공단, 건강보험심사평가원, 국립암센터)였던 플랫폼 연계기관을 2023년도에 5개소(통계청, 국립재활원, 국립장기조직혈액관리원, 국립중앙의료원, 건강보험공단 일산병원)를 추가하여 총 9개소의 연계 가능한 데이터를 제공하고 있다. 보건의료 빅데이터 플랫폼 사업 이외에도 우리나라에서는 데이터 결합 활성화를 위해 데이터 3법 통과, 보건의료데이터 활용 가이드라인 개정, 결합전문기관 지정 및 확대 등 다각적인 노력을 기울이고 있다. 이러한 가명정보의 결합이 명시적으로 허용되면서 데이터 결합을 통해 정보의 활용 가치는 높아지지만, 또 다른 한편으로는 개인식별의 가능성 또한 커진다는 우려가 제기되고 있다[14]. 보건의료 데이터의 활용 가치를 높이기 위해서는 데이터의 처리 및 보호 시스템에 대한 신뢰 형성 등 정부 차원에서의 꾸준한 노력이 필요하겠다.

연구자가 희망하는 연계자료원을 분석한 결과, 가장 많이 연계를 희망하는 단일자료원으로는 건강보험 청구자료로 조사되었다. 자료원 간 조합으로 보았을 때 가장 연계가 필요한 기관 단위의 희망 연계 조합은 ‘질병관리청-국민건강보험공단’ 자료였으며, 세부 자료원 연계 조합은 ‘국민건강영양조사-건강보험 청구자료’를 가장 희망하는 것으로 조사되었다. 질병관리청의 국민건강영양조사가 대표성 있는 자료원임에도 불구하고 단면조사의 한계점인 대상자를 추적관찰 할 수 없고 인과성을 추정하기 어렵다는 점을 보완하기 위해 전 국민 건강보험 청구자료 또는 일반건강검진 자료, 사망자료 연계를 희망하는 것으로 판단된다.

본 연구는 몇 가지 제한점이 있다. 온라인으로 설문조사를 진행하였으므로 익명성 등으로 인해 정확한 설문이 이루어졌는지 확인하기 힘들다는 제한점이 있다. 또한 주로 이메일을 통해 조사가 이루어졌으므로 선택 편향이 있을 수 있고 보건의료 분야 전체 연구자의 의견을 대표하기는 어렵다. 하지만 본 조사의 대상자는 보건의료 분야의 전문가라 할 수 있는 학회 회원들을 대상으로 하였고, 개인의 취향 및 선호에 관한 질문보다는 실제 이용 자료원에 대한 현황 및 문제점과 요구도 등을 파악한 것으로써 해당 분야 전문가들의 의견을 비교적 객관적으로 파악할 수 있는 문항으로 구성하였으며, 보건의료 분야를 대표할 수 있는 주요 학회 6개를 선정하여 가능한 다양한 전문가들의 의견을 반영하고자 하였다. 또한 본 연구에서는 이차자료원의 아쉬운 점으로 데이터 제공의 신속성이 1위로 조사되었는데, 국민건강영양조사와 같은 공개형 자료원과 맞춤형 데이터는 데이터 확보 방법에 차이가 있으나 본 조사에서는 자료원별 데이터 제공 시간을 별도로 조사하지 못하였다. 하지만, 단일자료원이 아닌 연계자료원에서도 동일하게 데이터 제공의 신속성이 주요 개선 사항으로 조사된 점으로 보아 연구자들은 결합데이터 이용 시 조금 더 빠른 데이터 제공을 원하는 것을 알 수 있었다. 본 조사에서는 보건의료 연구자들의 데이터 활용 시 요구도 및 개선 사항을 일부 확인할 수 있었으나, 연계 필요성이 있는 자료원에 대한 선호 이유 또는 아쉬운 점에 대한 해결 방법 등이 조사되지 않아 구체적인 대안을 제시하기는 어려웠다. 향후 자료원별 개선이 필요한 사항 및 이를 해결하기 위한 방법 등 구체적인 조사가 이루어진다면, 보다 안전하고 신속한 데이터 활용 체계를 구축하는 데 있어 실효성 있는 개선방안 마련에 도움이 될 것으로 생각된다.

결 론

본 연구를 통해 현재 보건의료 분야의 이차자료원 및 보건의료 빅데이터 플랫폼의 이용 현황을 파악할 수 있었고, 연구자들이 연계를 희망하는 자료원의 조합 및 연계 희망 우선순위를 파악할 수 있었다. 이를 바탕으로 연구자들의 수요를 반영한 결합데이터를 기획한다면 보건의료 분야의 학술연구 및 정책평가 등을 위해 보다 신속하고 정확하며 다양한 데이터의 결합을 지원할 수 있을 것으로 기대된다.

결합데이터를 활용한 연구를 활성화하기 위해서는 특성화된 통합자료의 생산, 운영의 효율화를 통한 신속한 데이터 제공, 결합률 개선을 통한 정확도 및 연구의 신뢰도 향상, 자료의 표준화, 윤리적인 가이드라인 마련, 법제도 보완 등 종합적인 노력이 필요하다.

References

1. . Moon JH. Activation of health care big data. Proceedings of the Korean Institute of Information and Commucation Sciences Conference 2021;25(1):483–486. (Korean).

2. . Golden C, Mirel LB. Enhancement of health surveys with data linkage. In. In : Chun AY, Larsen MD, Durrant G, Reiter JP, eds. (eds.). Administrative Records for Survey Methodology Hoboken, NJ: John Wiley and Sons Inc.; 2021. p. 271–292.

3. . Padmanabhan S, Carty L, Cameron E, Ghosh RE, Williams R, Strong-man H. Approach to record linkage of primary care data from Clinical Practice Research Datalink to other health-related patient data: Over-view and implications. Eur J Epidemiol 2019;34(1):91–99. DOI: 10.1007/s10654-018-0442-4.

4. . TRUST https://trustplatform.sg/about-us/what-is-trust/ [accessed on January 11, 2024].

5. . Park I. How to use health insurance data effectively for healthcare research. J Health Info Stat 2022;47(Suppl 2):S31–S39. (Korean). DOI: 10.21032/jhis.2022.47.S2.S31.

6. . Choi J, Nam T, Cho RM. Issues related to the public use of healthcare big data and medical platform: Focusing on the implementation of the 「Healthcare Big Data Platform」pilot project. J Govern Stud 2020;15(2):139–176. (Korean). DOI: 10.16973/jgs.2020.15.2.005.

7. . Kim GB, Kwon HY. Improvement plan to expand the role of expert data combination agency. J Korea Inst Inf Secur Cryptol 2023;33(1):99–116. (Korean). DOI: 10.13089/JKIISC.2023.33.1.99.

8. . Johnston MP. Secondary data analysis: A method of which the time has come. Qualitative and Qquantitative Methods in Libraries 2014;3:619–626.

9. . Swart LA, Kramer S, Ratele K, Seedat M. Non-experimental research designs: Investigating the spatial distribution and social ecology of male homicide. Research Methods in the Social Sciences 2019;19:19.

10. . National Academies of Sciences, Engineering, and Medicine. Data Linkage and Innovation. Improving Consent and Response in Longitudinal Studies of Aging: Proceedings of a Workshop Washington, DC: National Academies Press; 2022. p. 1–130.

11. . Yang H, Kim S, Park J. Development and utilization of drug lifecycle data in the United States, Japan, and Europe. J Health Info Stat 2023;48(2):148–156. (Korean). DOI: 10.21032/jhis.2023.48.2.148.

12. . Lee K. Current status of MyData policy and tasks in health and welfare. Health Welf Policy Forum 2021;301:52–68. (Korean). DOI: 10.23062/2021.11.5.

13. . Enewold L, Parsons H, Zhao L, Bott D, Rivera DR, Warren JL, et al. Updated overview of the SEER-Medicare data: Enhanced content and applications. J Natl Cancer Inst Monogr 2020;2020(55):3–13. DOI: 10.1093/jncimonographs/lgz029.

14. . Kim SO. A study on the balancing rational use and safe processing of pseudonymous data-In addition to the constitutional evaluation of 3 acts regarding to data. Public Law 2020;49(2):371–407. (Korean). DOI: 10.38176/PublicLaw.2020.12.49.2.371.

Article information Continued

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

Characteristics	n	%
Gender
Male	75	34.1
Female	145	65.9
Age (y)
20-39	133	60.5
40-49	54	24.5
≥50	33	15.0
Affiliation
Central/local government ministries	6	2.7
Government agency (public institutions)	34	15.5
Universities and medical institutions	166	75.5
Industrial organizations (pharmaceutical, medical devices, etc.)	2	0.9
Related associations	3	1.4
Civic group	1	0.5
Others	8	3.6
Position
Research director	81	36.8
Co-researcher	58	26.4
Data analyst	63	28.6
Administrative processor	12	5.5
Others	6	2.7
Total work experience (y)
<5	70	31.8
5-10	65	29.5
10-15	37	16.8
15-20	19	8.6
≥20	29	13.2
Experience using secondary data
Experienced in using	194	88.2
No experience	26	11.8
Awareness of healthcare big data platform
Awareness	147	75.8
Do not know	47	24.2
Experience using healthcare big data platform linked data
Experienced in using	28	19.0
No experience	119	81.0

Variables	Secondary data (n=194)		Healthcare big data platform (n=28)
Variables	1st	1st+2nd+3rd	1st	1st+2nd+3rd
Massive big data or representativeness	79.9	93.8	64.3	85.7
Follow-up using long-term cohort data	12.9	67.0	7.1	75.0
Ease of use process	2.1	16.0	3.6	10.7
Speed of data provision	2.1	7.7	3.6	3.6
Diversity of data content	1.0	36.1	14.3	67.9
Convenience of data provision method and format	1.0	17.5	3.6	14.3
Cost savings	0.5	25.8	3.6	17.9
Others	0.5	0.5	NA	NA

Variables	Secondary data (n=194)		Healthcare big data platform (n=28)
Variables	1st	1st+2nd+ 3rd	1st	1st+2nd+ 3rd
Speed of data provision	51.0	66.0	57.1	67.9
Expansion of limited data provision scope	21.6	65.5	7.1	50.0
Improvement of low linkage rate due to pseudonym processing	NA	NA	10.7	25.0
Expand promotion of the healthcare big data platform	NA	NA	7.1	10.7
Ease of use process	13.9	54.1	3.6	35.7
Communications with data providers	5.7	38.1	NA	NA
Expertise of data managers and practitioners	NA	NA	3.6	21.4
Accuracy of data provided	3.6	13.4	3.6	7.1
Provide standard guidelines related to data use	2.6	16.5	3.6	21.4
Expanding data provision capacity	0.5	15.5	NA	35.7
Others	1.0	3.1	3.6	7.1