Statistical Considerations in Assessing Bioequivalence with Baselines: A Case Study of Endogenous Drugs

Sang-Gue Park; Sangyoung Kim

doi:10.21032/jhis.2018.43.2.134

Abstract

Objectives

To assess bioequivalence between two endogenous drugs in 2 × 2 crossover trial with baseline measurements.

Methods

Two statistical methods are applied to assess bioequivalence between two endogenous drugs in 2 × 2 crossover trials. The first method is based on the current regulatory guideline published by Ministry of Food and Drug Safety (MFDS), which is based on the difference between baseline measurements and responses. The second method is more general approach, so-called general linear model method, which is defined the baseline measurements as covariates.

Results

The first method based on current guideline shows that two drugs are not bioequivalent; however, the second method by general linear model shows that two drugs are bioequivalent. When the baselines of the subjects are expected to be highly variable, general linear model approach is more suitable to assess the bioequivalence by adjusting high subjects’ variations.

Conclusions

General linear model with covariates should be considered in assessing bioequivalence of endogenous substances when highly subject variations of baseline measurements are expected.

Key words: 2 × 2 crossover design, Analysis of covariance, Baseline measurements, Bioequivalence, Endogenous drug

서 론

생물학적 동등성(이하 생동성) 시험이라 함은 생동성 입증을 위하여 실시하는 생체 내 시험의 하나로, 주성분이 전신순환혈에 흡수되어 약효를 나타내는 의약품에 대하여 동일 주성분을 함유한 동일 투여경로의 두 제제가 생체이용률에 있어서 통계학적으로 동등하다는 것을 입증하기 위해 실시하는 시험을 의미한다. 제제 간의 생동성 시험은 식품의약품안전처(이하 식약처)에서 의약품동등성시험기준을 통해 시험 설계 및 방법을 관리하고 있다[1,2].

일반적인 제제에 대한 생동성 시험 설계 및 분석은 매우 잘 정리되어 있지만, 제제 주성분이 생체 조직이나 기관에서 생성되는 내인성 물질에 대한 생동성 시험은 식약처에서 별도의 가이드라인을 통해 관리하고 있다[3].

내인성 물질은 비타민 D3나 오메가 3(Omega-3)처럼 신체가 이미 생성했거나 일반적인 식단에 존재하기 때문에 이미 체내에 존재하는 물질을 의미한다. 따라서 제제의 주성분이 이러한 내인성 물질이라면 제제효과를 평가하기 전에 적절한 보정이 이루어져야 한다.

식약처에서는 내인성 물질의 생동성 시험에서는 시험 전 내인성 물질의 존재에 대해 다중 측정을 통해 물질의 평균 함량을 측정하고 이를 반영하여 생체이용률을 보정하도록 가이드라인을 통해 발표하고 있지만, 구체적인 방법에 대해서는 담당부서와 협의하여 계획서에 구체적으로 명시하도록 제시하고 있다. 발표된 가이드라인에 의하면 내인성 물질의 생동성 평가에서는 사전에 반복 측정한 생체이용률을 기저치로 볼 때, 제제 복용 후 측정된 생체이용률에서 이 기저치를 차감하는 방법을 기본으로 하고 있다[3]. U.S. Food and Drug Administration (US FDA)에서도 내인성 물질에 대한 생동성 시험 분석은 우리나라와 유사하게 규정하고 있다[4].

Figure 1A의 경우는 일반적인 의약품의 생체이용률 그래프이고, Figure 1B는 내인성 물질인 경우 생체이용률 그래프이다. Figure 1B의 y-축을 보면 약물 복용 전시점인 0시점에서도 이미 체내에서 생체이용률이 측정되고 있음을 알 수 있다. 따라서 Figure 1B와 같은 경우는 Figure 1C처럼 기저치를 차감하는 보정을 한 후 생체이용률을 활용하여야 한다.

일반적으로 내인성 물질은 개인차가 크다고 알려져 있어[5], 이를 분석할 때 이러한 변동성을 약물의 특성을 고려하면서 적절하게 생동성 평가에 반영하는 것이 바람직하다. 즉, 내인성 제제 간 생동성 평가에서는 제제 간의 생동성 평가에 시험대상자 간 기저치 변동성을 적절하게 반영하여 제제의 효과를 보다 정확하게 평가할 수 있는 통계적 방법을 활용해야 한다.

내인성 물질의 생동성 시험 분석과 관련된 통계적 방법은 기저치 혹은 공변량이 존재하는 2×2 교차설계법의 분석으로 볼 수 있다. 교차설계법에서 기저치나 공변량을 함께 고려하면서 제제효과를 추론하는 임상시험이나 생동성 시험의 경우, 기저치나 공변량이 제안된 통계모형에서 어떻게 제제효과에 영향을 주는가를 중심으로 연구가 이루어져 왔는데, Kenward and Jones [6] 이래로 Jeong et al. [7], Kenward and Roger [8], Yan [9], Mehrotra [10] 등에 의해 꾸준하게 연구 결과가 발표되어 왔다. 특히 Kenward and Roger [8]은 현재 US FDA의 가이드라인에서 활용하고 있는 기저치를 단순 차감하는 방식이 제제효과의 추론에 편의를 발생시킬 수 있다고 지적하면서 기저치를 공변량으로 간주하여 공분산분석을 수행하는 방법에 대해 논의하였다. 또한 Yan [9]은 교차설계법에서 모형에 기저치가 포함되어 있을 때 통계분석의 효율성에 기저치가 미치는 영향에 대하여 연구하였는데, 특히 사용된 교차설계법이 높은 효율성을 가지고 있지 않을 때, 기저치가 분석의 효율성에 중요한 영향을 미칠 수 있다고 논하였다. 최근 들어, Mehrotra [10]는 기저치가 있는 2×2 교차설계 시행에서 여러 가지 통계적 분석 방법을 비교하였는데, 반응변수의 차이를 종속변수로 하고 기저치의 차이를 공변량으로 하는 공분산분석 접근법이 제일 좋은 방법이라고 논하였다.

본 연구에서는 내인성 물질의 생동성 시험에서 제제 복용 전에 측정한 기저치 생체이용률과 제제 복용 후 측정한 생체이용률을 차감하는 방식과 기저치를 공변량으로 간주하여 보다 일반적으로 분석하는 방법을 생동성 시험 사례를 통해 비교하면서 두 가지 방법의 차별성을 논의하고자 한다.

본 연구의 목적은 내인성 물질인 제제들의 생동성을 평가하는 데 있어 기저치가 존재하는 2×2 교차설계법을 분석하는 방법을 실제 생동성 시험 사례를 통해 비교하는 것이다.

(1) 현재 식약처의 내인성 물질의 생동성 시험 가이드라인에서 제시하고 있는 제제 복용 후 생체이용률과 기저치를 차감하는 방식으로 제제 간의 생동성을 평가하는 방법을 논의한다.

(2) 보다 일반적인 통계적 방법으로 기저치를 공변량으로 취급한 공분산분석모형을 고려하면서 제제 간의 생동성을 평가하는 방법을 논의한다.

연구 방법

2×2 교차설계

제제 간의 생동성 시험은 2×2 교차설계법을 활용하는 것을 원칙으로 하고 있다[1]. 교차설계법은 한 시험대상자가 두 번의 처리를 모두 수용하는 것이므로 처리에 대한 반응의 변동성이 클 때 처리의 변동성을 통제하며 그 효과를 추론할 수 있어 평행설계, 혹은 대응설계, 반복측정설계 등에 비해 효율적인 것으로 알려져 있다[2].

일반적으로 2×2 교차설계시험은 시험대상자의 두 순서집단 확률화 배정과 약물의 특성을 반영한 적절한 세수기간(washout period) 설정 등, 사전에 계획된 상태에서 이루어지고, 시험 참여 전 시험대상자의 상태를 기저치로 고려해야 하는 경우의 자료 구조와 통계모형은 각각 Table 1과 같다.

식약처가 발간한 내인성 물질의 생동성 평가 가이드라인에 의하면 약물 복용 전 생체이용률 기저치를 약물 복용 후 생체이용률에서 차감하는 방법으로 제제 간의 생동성을 평가는 것을 원칙으로 하고 있으므로[3], 이를 통계 모형화 하면 다음과 같이 표현할 수 있다.

(1)

Yijk-Xijk=μ+Gk+Sik+Pj+μjk+ϵijk(i=1,…,nk; j=1,2; k=1,2)

여기서 Y_ijk는 i번째 시험대상자의 j번째 기간, k번째 순서에서 투여된 제제(T는 시험제제, R은 대조제제)의 생체이용률(AUCt, Cmax)의 로그변환값을 의미하며, X_ijk는 기저치의 로그변환값, μ는 전체 평균을 나타낸다. G_k는 순서효과, P_j는 기간효과, μ_jk는 시험약과 대조약의 제제효과(μ₁₁=μ₂₂=μ_T, μ₁₂=μ₂₁=μ_R)이며 다음의 조건을 만족한다:

∑k=12Gk=0, ∑j=12Pj=0, ∑j=12∑k=12μjk=0

또한 S_ik는 k번째 순서에 투입된 i번째 시험대상자에게 관측되는 확률변동을 의미하며, ϵ_ijk는 j번째 기간, k번째 순서에 투입된 i번째 시험대상자에게 관측되는 제제의 확률변동을 의미한다. S_ik와 ϵ_ijk는 서로 독립이며, S_ik ~ iid N(0, σs2 )라고 가정한다. S_ik의 분산 σs2는 시험대상자의 차이에서 오는 시험대상자 간 변동(inter-subject variability)을 의미하고, ϵ_ijk의 분산 σs2는 제제의 차이에서 오는 시험대상자 내 변동(intra-subject variability)을 의미한다.

Table 1의 자료구조와 통계 모형 (1)을 보다 일반화한 선형모형으로 다음과 같이 공분산분석(analysis of covariance) 모형으로 표현할 수 있다.

(2)

Yijk=μ+Gk+Sik+Pj+μjk+βXijk+ϵijk

여기서 β는 기저치가 생체이용률에 영향을 주는 기울기 모수를 의미한다.

이 두 가지 통계모형은 β가 1인 값을 가지는 경우와 임의의 값을 가지는 경우로 볼 수 있다. 즉, β=1인 모형 (1)의 경우는 반응값에 기저치가 주는 영향이 일정하다는 의미로 볼 수 있어 기저치 분포가 동질적인 상황이고, 모형 (2)는 반응값에 기저치가 주는 영향이 일정하지 않을 수 있다는 의미로 볼 수 있어 기저치 분포가 동질적이지 않을 때 활용할 수 있다. 또한 모형 (2)의 경우 기저치 변동성에 기인하는 시험대상자 내 변동성을 분리하는 효과를 가지고 있어 제제효과를 검출하는 민감도를 높일 수 있다.

연구 결과

시험 설계 및 자료

모 제약회사는 한 내인성 물질의 생동성 평가를 위해 군당 37명씩 총 74명의 시험대상자를 모집하여 2×2 교차설계시험을 실시하였다. 모집된 시험대상자들에게 1기 시험이 시작되기 전 3번의 혈액 검사를 통해 내인성 물질의 생체이용률을 측정하여 그 값들의 평균을 기저치로 고려하고, 약물 복용 후 생체이용률을 측정하였다. 2기 시작 전 역시 3번의 내인성 물질 생체이용률 측정값들의 평균을 기저치로 삼았고, 2기 제제 복용 후 생체이용률을 측정하였다. 시험 과정 중 1군에서 5명이 탈락되었고, 2군에서는 1명이 탈락되어, 총 68명의 시험대상자가 시험을 완료하였다. 생동성 평가와 관련된 모든 통계 분석은 측정된 생체이용률을 로그 변환한 후 SAS 9.4 프로그램 PROC GLM (SAS Institute, Cary, NC, USA)을 이용해서 분석하였다. 일반적으로 제제 간 생동성 분석에서 제시되는 분산분석표의 순서효과(잔류효과의 별명[alias]) 검정 결과는 내인성 물질일 경우 잔류효과를 검정하는 것이 의미가 없고, 본 연구논문의 방향과 논의에 영향을 주지 않아 생략하기로 한다.

생동성 평가

현재 식약처에서 발간한 가이드라인에 의하면 내인성 제제의 생동성은 기저치 보정 방법을 계획서에 정의하고, 생동성 판단은 기저치를 보정한 데이터에 근거해야 한다고 명시하고 있다. 한편 내인성 제제라 하더라도 약물 복용 후 약물농도가 크게 증가하면 기저치 보정을 생략할 수도 있다는 규정도 함께 제시하고 있다.

두 제제 간 생동성 평가는 로그변환된 생체이용률 AUCt와 Cmax의 90% 신뢰구간이 각각 동등성 기준인 구간(log 0.8, log 1.25) 안에 포함되는 것을 원칙으로 하고 있다. 내인성 물질의 생동성 가이드라인에 따라 기저치 보정을 수행해야 하지만, 논의의 전개를 위해 기저치를 무시하고 두 제제 간의 생동성을 평가하였다.

Table 2는 두 제제 간의 생체이용률 AUCt와 Cmax의 90% 신뢰구간이 동등성 기준인 -0.2231, 0.2231과 비교했을 때 AUCt와 Cmax는 모두 동등하게 나타나고 있다.

가이드라인에 따라서 기저치를 보정하는 방법으로 약물 복용 전 세 번 측정한 생체이용률의 평균값을 약물 복용 후 측정한 생체이용률로부터 차감한 값을 사용한다. 두 제제 간의 생체이용률의 신뢰구간은 Table 3과 같다.

Table 3은 모형 (1)과 (2)를 활용했을 때 두 제제 간의 생체이용률 AUCt와 Cmax의 90% 신뢰구간과 동등성 기준인 -0.2231, 0.2231을 비교한 결과이다. 이 결과를 Table 2와 비교하여 해석해보면, 기저치를 고려하지 않았을 때의 생동성 평가가 (1)의 방식으로 기저치를 고려할 때와 (2)의 방식으로 기저치를 고려할 때 제제 간의 생동성 평가의 결과가 다르게 나타남을 알 수 있다. 즉, 기저치 처리를 어떤 방식으로 수행하는가가 제제 간 생동성 평가에 영향을 미치고 있음을 알 수 있다.

내인성 물질의 경우 시험대상자의 기저치 분포의 변동성은 크다고 알려져 있기 때문에[5], 제제 간 생동성을 입증하지 못한 이유가 이 변동성 때문인지를 탐색하기 위해 두 순서집단의 크기를 15, 20, 25명씩 구성하여 기저치 변동성의 영향력을 조사하였다. 기저치 변동성의 의미를 보다 명확하게 하기 위해 각 순서집단에서 기저치 값을 순서대로 나열한 후, 변동성이 큰 집단은 기저치 값을 큰 값과 작은 값 순서대로 반씩 구성하여 변동성을 임의로 높였고, 변동성이 작은 집단은 큰 값과 작은 값을 제외하고 구성하여 변동성을 역시 임의로 낮췄다.

Table 4는 군 당 시험대상자 크기와 변동성 크기에 따른 모형 (1)과 모형 (2)의 두 제제 간의 생동성 평가의 특성을 고찰할 수 있다. 모형 (1)의 경우 기저치의 변동성이 클 때는 시험대상자 수와 상관없이 제제 간 생동성을 입증하지 못하는 경우가 많고, 모형 (2)의 경우 기저치의 변동성이 커져도 군 당 시험대상자 수와 크게 상관없이 제제 간의 생동성을 입증하는 경우가 많다. 이 결과로 보아 기저치 변동성이 모형 (1)을 사용하는 제제 간 생동성 평가에 영향을 주고 있음을 알 수 있다.

고찰 및 결론

Table 2의 결과를 통해 내인성 물질의 생동성 평가 가이드라인과 상관없이 기저치를 무시하고 제제 복용 후 자료만을 가지고 두 약물 간의 생동성을 평가했을 때 두 제제 간의 생동성을 인정할 수 있었다. 하지만 Table 3 결과를 보면 현재 내인성 물징의 생동성 시험 가이드라인 방식으로 기저치 보정한 자료로 제제 간 생동성을 입증할 수 없었다. 즉, Tables 2와 3이 서로 상반된 결과를 나타낸 이유가 기저치 보정방법의 문제인지를 보다 구체적으로 고찰해볼 필요가 있다.

일반적으로 내인성 물질은 시험대상자의 변동성에 기인하는 기저치 변동성이 크다고 알려져 있다[5]. 즉, 제제 간에 생동성을 입증하지 못한 것이 기저치 변동성을 적절하게 반영하지 못해서 발생한 문제라면 이를 통계적으로 그 원인을 찾아 논의할 필요가 있다.

Table 4는 기저치 변동성이 제제 간 생동성 평가에 어떤 영향을 미치는지를 확인하기 위해 생동성 평가에 영향을 줄 수 있는 기저치 변동성과 시험대상자 크기를 함께 고려하였다. 기저치 변동성의 효과를 명확하게 구분하기 위해 실제 생동성 시험 사례로부터 변동성이 큰 경우와 작은 경우를 각각 구성하고, 시험대상자 수를 15명, 20명, 25명씩 구분해가면서 모형 (1)과 모형 (2) 방법으로 제제 간의 생동성을 평가한 결과이다. Table 4의 결과로부터 현재 식약처 규정인 모형 (1)의 경우는 시험대상자 수에 상관없이 기저치의 변동성이 작은 경우는 제제 간의 생동성을 인정하는 경향이 있고, 제제 간의 변동성이 클 때는 제제 간 생동성을 인정하지 못하고 경우가 많이 발생하고 있다. 모형 (2)의 경우는 시험대상자 수에 상관없이 기저치의 변동성이 작거나 클 때 상관없이 제제 간의 생동성을 인정하는 경우가 대부분이다. 즉, 시험대상자 수보다는 기저치 변동성이 제제 간의 생동성을 입증하는 데 더 큰 영향력을 가지는 것을 볼 수 있다.

Table 5는 기저치 변동성의 영향력을 보다 구체적으로 살펴보기 위해 시험대상자 수에 따라 변동성이 작은 경우와 큰 경우로 나누어 기저치의 표준편차를 계산한 표이다. Table 5를 참고하면 기저치 변동성이 작은 경우와 큰 경우는 약 표준편차 2배 정도로 측정되고 있음을 알 수 있다.

Tables 4와 5의 결과를 연계하여 해석해보면 기저치 변동성이 작을 때, 즉 기저치의 표준편차가 0.19-0.25일 때 모형 (1)을 활용할 경우 시험대상자 수가 커질수록 제제 간의 생동성을 입증할 수 있음을 알 수 있다. 하지만 기저치의 변동성이 클 때, 즉 기저치의 표준편차가 약 0.37-0.45일 때 모형 (1)로서는 시험대상자의 수가 커지더라도 제제 간의 생동성을 입증하기 어렵다는 것을 알 수 있다. 결국 기저치의 변동성이 클 때는 모형 (1)을 기반으로 하는 식약처 가이드라인으로는 한계가 있음을 알 수 있고, 기저치 변동성이 제제 간의 생동성 평가에 영향을 주는 것을 적절하게 반영할 수 있는 모형 (2)를 고려하는 것이 바람직해 보인다.

Table 6의 결과는 모형 (2)를 활용했을 때 제제 간의 생동성 평가 결과와 β의 추정값이다.

현재 식약처 가이드라인으로 활용되고 있는 통계 모형 (1)이 모형 (2)에서 β=1인 경우라 생각할 때, 실제 모형에서 반영하고 있는 β의 추정값은 1과는 상당히 차이가 있는 값을 주고 있어 이 결과가 통계 모형 (1)로 생동성을 평가할 때 비동등 결과가 나오고 있음을 알 수 있다.

실제 생동성 시험 사례를 통해 내인성 물질의 생동성 평가 가이드라인에서 사용하고 있는 통계모형 (1)은 시험대상자들의 기저치 변동성을 적절하게 반영하고 있지 못함을 알 수 있었다. 따라서 시험대상자 간 기저치 변동성이 클 때는 일반선형모형인 공분산분석모형 (2)를 활용하여 내인성 물질의 생동성을 평가할 수 있는 방법도 적극적으로 고려되어야 한다고 생각한다.

본 연구에서는 식약처의 현재 내인성 물질의 생동성 평가 가이드라인을 살펴보고, 시험대상자들의 기저치 변동성이 클 때 현재 가이드라인에 의한 제제 간 생동성 평가가 적절하지 않을 수 있다는 사례를 살펴보았다. 본 연구 결과는 시험대상자들의 기저치 생체이용률에 대한 사전 변동성 참고 자료가 존재할 경우, 내인성 물질의 생동성 시험 계획서를 작성할 때 제제 간 생동성 평가의 현 가이드라인과는 달리 공변량을 추가한 일반화 선형모형을 제시하는 근거로 활용될 수 있으리라 생각된다.

기저치를 가진 생물학적 동등성 평가의 통계적 고찰: 내인성 제제 사례연구