우리는 일상에서 데이터나 경험을 통해 인과관계(causation)와 연관관계(association)를 파악하게 된다.
사실 인과관계가 더 높은 차원의 개념이며, 연관관계는 데이터의 반복되는 패턴이나 규칙을 통해
상대적으로 쉽게 파악할 수 있다. 더욱이 요즘의 뛰어난 머신러닝 성능에 힘업어 꽤 정교한 연관관계를
데이터로부터 학습시켜 파악할 수 있다.
얼핏 보면, 연관관계와 인과관계를 구분해내는 것은 쉬워보인다. 예를 들면, "까마귀 날자 배 떨어진다" 라는 속담에서 보듯이, 까마귀가 날아갔기 때문에 배가 떨어진 것이 아님을 우리는 상식적으로 쉽게 알 수 있다.
또 하나 예를 들자면, 여름이 되어 아이스크림이 많이 팔렸는데 그와 동시에 바다에 익사사고가 많이 일어났다고 할 때,
우리는 아이스크림이 많이 팔렸기 때문에 익사사고가 많이 일어난 것이 아님을 상식적으로 쉽게 알 수 있다.
즉, 아이스크림이 많이 팔리는 것과 익사사고가 많이 일어나는 것이 동시에 일어나는 것은 기온이라는 공통 원인에 의해서 발생하는 것임을 우리는 쉽게 캐치해낼 수 있다. 아이스크림의 판매량과 익사사고의 건수가 연관성이 보이지만, 이는 인과관계가 아님을 상식적으로 파악해낼 수 있는 것이다.
하지만, 실제 데이터 분석을 하다 보면 이렇게 인과관계를 쉽게 파악하지 못하는 경우가 많다.
예를 들면, 어떤 기업에서 광고 전략을 바꾸어서 매출에 증가가 있었다고 할 때, 그 매출의 증가가 광고 전략의 변화 때문인지, 경기 상황이나 다른 요인들이 바뀌어서 자연스레 매출이 증가한 것인지 파악하기 어려울 수 있다.
따라서 이를 분명히 하기 위해서는 단순히 regression을 적용할 것이 아니라, 좀 더 엄격한 통계적 tool을 사용할 필요가 있다. 이러한 통계적 tool들에 대해 연구하는 분야가 causal inference 분야이다. (즉, 쉽게 말해 단순히 linear regression의 회귀계수를 인과성으로 해석하면 안된다는 얘기이다.)
'데이터 사이언스 > Statistics' 카테고리의 다른 글
[통계학] 최대 가능도 추정량 (Maximum Likelihood Estimator)란? (0) | 2022.06.14 |
---|---|
[인과성 추론 (Causal Inference) ] 필요한 가정 2편 - Overlap, Ignorability (0) | 2022.06.13 |
[인과성 추론 (Causal Inference) ] 필요한 가정 1편 - 인과 변수 설정, 일관성 (0) | 2022.06.13 |
[통계학] 표준오차 (S.E. 또는 Standard Error) 란? (0) | 2022.04.24 |
[통계학] 통계학에서 신뢰구간의 의미는? (0) | 2022.04.24 |