지난편에서는 인과성 추론을 할 때 필요한 가정 네가지 중 두가지를 알아보았다.
오늘은 나머지 두가지에 대해 알아보고자 한다.
그 나머지 두 가정은 바로 Overlap, Ignorability 가정이다.
한국어로 해석하면, 겹쳐짐, 무시성 가정인데... 워낙 자연스럽지 않은것 같아서
그냥 영어식 표현인 Overlap, Ignorability로 진행하겠다.
먼저, Overlap 가정이란, 모집단을 각 개체의 성질에 따라 여러 그룹으로 나눌 수 있을 때,
각 그룹의 개체들이 원인 후보들을 가질 확률이 0보다 크다는 것을 의미한다. 예를 들면, 코로나 백신의 코로나 예방 효과를 분석한다고 가정해보자. 여기에서 원인은 "코로나 백신", 결과는 "코로나 감염 유무"가 될 것이다. 즉, "코로나 백신"을 맞았냐 안맞았냐에 따라 결정이 되는 potential outcome (1편 참고)이 궁금한것이다. 여기서 "코로나 백신"을 맞았냐 안맞았냐를 더미변수로 표현하면 0 또는 1의 값을 가지는 변수 X로 생각할 수 있고, 그에 따른 potential outcome 역시 감염이 되었냐 안되었냐에 따라 0 또는 1의 값을 가지는 변수 Y로 생각할 수 있다.
여기서 모집단을 나이에 따라 분류한다고 한다고 하자. 좀 더 구체적으로 20세 미만, 20대, 30대, 40대, 50대, 60세 이상으로 분류한다고 하자. 그러면 Overlap 가정은 다음과 같은 조건부 확률들로 표현된다.
P(X=1 | age = "20세 미만") > 0 & P(X=0 | age = "20세 미만") > 0
P(X=1 | age = "20대") > 0 & P(X=0 | age = "20대") > 0
P(X=1 | age = "30대") > 0 & P(X=0 | age = "30대") > 0
P(X=1 | age = "40대") > 0 & P(X=0 | age = "40대") > 0
P(X=1 | age = "50대") > 0 & P(X=0 | age = "50대") > 0
P(X=1 | age = "60세 이상") > 0 & P(X=0 | age = "60세 이상") > 0
이는 어떤 인과관계를 파악하기 위해서는 다른 변수들은 다 동일하게 했을 때, 원인 변수만 다르게 해서 비교하는 것이 필요할텐데 그러기 위해서는 먼저 해당 관측치들이 존재해야 한다는 직관과도 일치한다.
Overlap 가정을 좀 더 엄밀하게 정의하면 아래와 같이 표현된다.
P(X=x | C = c) > 0 for any possible x and c such that P(C=c) > 0.
여기서 C는 원인 X와 결과 Y를 제외한 변수 집합(a set of variables)을 말한다.
이러한 변수 집합을 공변량(covariates)이라고 부르기도 한다.
이제 가장 까다로운 ignorability 가정에 대해서 알아보겠다.
ignorability는 매우 중요한 가정인 만큼 옛날부터 많이 연구가 되어왔고
따라서 그만큼 다르게 불리는 이름들이 많다. (예를 들면 (weak) unconfoundedness, (conditional) exchangeability 와 같이 불리기도 한다.)
사실 인과추론이 어려운 이유와 인과추론 논문의 대다수가 바로 이 ignorability 가정때문에 탄생하고 있다고 해도 과언이 아니다.. 그만큼 중요하고 실제로 이 가정이 맞는지 판단하는건 어렵다.
ignorability 가정은 현재 개체에서 관측된 원인값과 상관없이(즉, 독립적으로) 현재 개체의 potential outcome이 현재 개체의 공변량(covariates)과 조정된 원인값에 의해서만 결정됨을 의미한다. 이게 말이 좀 어려운데... 위에 코로나 예제를 다시 들고와보자. 예를 들어 "코로나 백신"을 맞은 한 개체가 "코로나 감염"에 걸리지 않은 채로 관측되었다고 하자. 그리고 그 개체에 대한 정보들 (예를 들면, 나이라던지 키, 몸무게, 혈압 등)도 우리가 가지고 있다고 치자. 그러면, 그 개체가 "코로나 백신"을 맞지 않았었다면 관측되었을 "코로나 감염 유무"는 지금 그 개체에 대해 우리가 갖고 있는 그 정보들과 "코로나 백신"을 맞지 않았다는 사실에만 의존한다는 것이다.
즉, 그 개체가 지금 "코로나 백신"을 맞았다는 사실 자체는 "코로나 백신"을 맞지 않았을 때 발생할 결과에 영향을 미치지 않는다는 것이다. 이게 깨지는 시나리오를 한번 그려보면, 환자들을 직접 보는 의료계에 종사하는 사람들이 "코로나 백신"을 더 맞는 경향이 있다고 가정해보자. 그러면 "코로나 백신"을 맞았다는 그 사실만으로 그 개체는 의료계에 종사하는 사람일 가능성이 높아지며, 이는 "코로나 백신"을 맞지 않았다면 발생했을 잠재적 결과(potential outcome)에 충분히 영향을 미친다고 볼 수 있다. (예를 들면 의료계에 종사하는 사람들은 환자들과 접촉이 많으므로, 감염 가능성이 더욱 높아질 수 있다.) 이를 그림으로 표현해보면 아래와 같다.

즉, 백신을 맞은 집단과 백신을 맞지않은 집단, 두 집단이 동질하지 않으므로, 객관적인 비교라고 볼 수 없는 것이다.
두 집단간의 차이가 백신 때문인지, 의료계 종사자라는 요인 때문인지 구분할 수 없게 된다.
다시 말해서 해당 결과는 "코로나 백신" 접종 유무와 의료진이라는 변수가 함께 혼합되어 발생된 것이므로, 우리가 원하는 "코로나 백신"에 의해 발생된 결과를 혼란(counfounding)시키게 된다.
따라서 이런 경우를 피하기 위해서는, "직업"이라는 변수를 통제변수로 넣어주어야 할 것이다. (객관적인 비교를 위해서)
즉, 위 사실들을 요약하면, potential outcome을 결정하는 요인에 현재 관측된 원인의 상태가 있어서는 안된다.
현재 관측된 원인값이 potential outcome에 영향을 미치는 순간부터, 그 potential outcome은 우리가 통제하고 있지 못하는 변수의 효과가 원인의 효과와 뒤섞여 발생하게된다. 즉, 우리가 통제하지 못하는 변수(confounder 또는 교란인자라고 부른다.)가 인과관계 파악에 교란 또는 혼란(confounding)을 유발하는 것이다.
ignorability 가정을 좀 더 엄밀하게 정의하면 아래와 같다.
지금까지 인과성 추론에 필요한 가정 4가지를 알아보았다. 기본적으로 이 네가지 가정이 모두 성립해야 데이터로부터 인과효과(causal effect)를 왜곡없이 구해낼 수 있게 된다. (즉, Y(1)-Y(0) 또는 E[Y(1)] - E[Y(0)] 을 구할 수 있게 된다.)
앞으로는 이 가정들을 기반으로 하는 여러 causal inference 기법들을 알아보도록 하겠다.
%출처 : “Hernán MA, Robins JM (2020). Causal Inference: What If. Boca Raton: Chapman & Hall/CRC.”
'데이터 사이언스 > Statistics' 카테고리의 다른 글
[통계학] 베이지안적 사고와 빈도주의적 사고 (0) | 2022.06.14 |
---|---|
[통계학] 최대 가능도 추정량 (Maximum Likelihood Estimator)란? (0) | 2022.06.14 |
[인과성 추론 (Causal Inference) ] 필요한 가정 1편 - 인과 변수 설정, 일관성 (0) | 2022.06.13 |
[인과성 추론 (Causal Inference) ] 인과관계와 연관관계의 차이 (0) | 2022.06.07 |
[통계학] 표준오차 (S.E. 또는 Standard Error) 란? (0) | 2022.04.24 |