데이터 사이언스/Statistics

[인과성 추론 (Causal Inference) ] 인과관계와 연관관계의 차이

라니체 2022. 6. 7. 00:30
728x90

우리는 일상에서 데이터나 경험을 통해 인과관계(causation)연관관계(association)를 파악하게 된다.

사실 인과관계가 더 높은 차원의 개념이며, 연관관계는 데이터의 반복되는 패턴이나 규칙을 통해

상대적으로 쉽게 파악할 수 있다. 더욱이 요즘의 뛰어난 머신러닝 성능에 힘업어 꽤 정교한 연관관계를

데이터로부터 학습시켜 파악할 수 있다.

 

얼핏 보면, 연관관계와 인과관계를 구분해내는 것은 쉬워보인다. 예를 들면, "까마귀 날자 배 떨어진다" 라는 속담에서 보듯이, 까마귀가 날아갔기 때문에 배가 떨어진 것이 아님을 우리는 상식적으로 쉽게 알 수 있다.

 

또 하나 예를 들자면, 여름이 되어 아이스크림이 많이 팔렸는데 그와 동시에 바다에 익사사고가 많이 일어났다고 할 때,

우리는 아이스크림이 많이 팔렸기 때문에 익사사고가 많이 일어난 것이 아님을 상식적으로 쉽게 알 수 있다.

즉, 아이스크림이 많이 팔리는 것과 익사사고가 많이 일어나는 것이 동시에 일어나는 것은 기온이라는 공통 원인에 의해서 발생하는 것임을 우리는 쉽게 캐치해낼 수 있다. 아이스크림의 판매량과 익사사고의 건수가 연관성이 보이지만, 이는 인과관계가 아님을 상식적으로 파악해낼 수 있는 것이다.

 

하지만, 실제 데이터 분석을 하다 보면 이렇게 인과관계를 쉽게 파악하지 못하는 경우가 많다.

예를 들면, 어떤 기업에서 광고 전략을 바꾸어서 매출에 증가가 있었다고 할 때, 그 매출의 증가가 광고 전략의 변화 때문인지, 경기 상황이나 다른 요인들이 바뀌어서 자연스레 매출이 증가한 것인지 파악하기 어려울 수 있다.

 

따라서 이를 분명히 하기 위해서는 단순히 regression을 적용할 것이 아니라, 좀 더 엄격한 통계적 tool을 사용할 필요가 있다.  이러한 통계적 tool들에 대해 연구하는 분야가 causal inference 분야이다. (즉, 쉽게 말해 단순히 linear regression의 회귀계수를 인과성으로 해석하면 안된다는 얘기이다.)