[데이터애널리스트 기초] 데이터 분석을 할 때 주의해야 할 점 5가지
1.바이어스
데이터 분석의 결과와 진짜 효과가 괴리를 바어스라고 한다.
DM를 보냈을 경우의 성약률이 32%, DM 보내지 않은 경우 23%의 차이가 있다고 가정하자.
여기서 이야기하는 것은, 32%와 23%의 차이 10%를 정말로 효과로 봐도 되는가이다.
예를 들어 이렇게, DM를 보냈지만 DM을 확인하지 않고도 성약을 하는 사람들도 오른쪽처럼 있을 수 있다. 진정한 효과는 오른쪽의 분홍색이라고 할 수 있다.
이렇게 집단을 선택하는 방법에 따라서 크게 의존된다는 것이다. 어떤 조건으로 집단을 정하느냐에 따라서 효과가 크게 차이 난다.
2. 상관관계
2가지의 변수의 관계의 변화를 보는 것이다.
주의점은 2가지의 변수는 인과관계를 보는 것은 아니다.
3. 인과관계
원인과 결과를 의미하는 관계성
기온이 높으니깐 (원인) -> 아이스가 잘 팔림(결과)
4. 인과와 상관은 다름.
위는 Y축은 연수입, X축은 모발의 양으로 모발의 양이 적을수록 연수가 높다는 식의 해석을 할 수 있는데 물론 이것은 NG이다.
연령이 높을수록 연수입이 높아서 모발의 양이 적은 것 아닌지 다른 식으로 해석할 수 있다.
5. 거짓상관
2가지의 변수의 인과관계는 없지만 다른 요인에 따른 인과관계가 있는 듯이 보이는 것
총 3가지 패턴이 있다.
크게 3가지 있는데, 첫 번째가 인과관계가 반대. 아이스크림이 많이 팔릴수록 기온이 높은 것이 아니라 기온이 높을수록 아이스크림 잘 팔리는 경향이 있다는 것이다. 두 번째는 교락. 위의 모발의 양과 수입에 대한 이야기를 했는데 이 사이에 실제로는 연령이라는 변수(제3) 영향을 끼치는 것이다. 세 번째는 합류점에서 발탁. 예를 들어 합격한 사람 등의 특정의 집단을 선택할 경우 원래 그것보다 더 큰 집단에서는 상관관계가 없는데 특정 집단에서 상관이 나오는 경우를 말한다.
[데이터애널리스트 기초] 데이터 분석을 할 때 주의해야 할 점 5가지
'데이터 애널리스트 업무 이해하기' 카테고리의 다른 글
7월 다섯째주_2024년 7월 30일(화) (0) | 2024.07.30 |
---|---|
7월 다섯째주_2024년 7월 29일(월) (0) | 2024.07.29 |
7월 넷째주_2024년 7월 24일(금) (0) | 2024.07.26 |
7월 넷째주_2024년 7월 24일(수) (1) | 2024.07.24 |
7월 넷째주_2024년 7월 23일(화) (1) | 2024.07.23 |