-
탐색적 데이터 분석(Exploratory Data Analysis)경제 2024. 9. 7. 20:30
탐색적 데이터 분석은 데이터를 분석하기 전에 그 데이터를 시각적으로 탐색하고, 패턴이나 이상점 같은 것들을 찾아내는 방법이다. 말하자면, 데이터를 정리하고 시각적으로 표현해서 "이 데이터가 어떤 특성을 가지고 있나?"를 알아보는 거다.
탐색적 데이터 분석(Exploratory Data Analysis) 기법들에 대해서 알아보자
줄기-잎 그림(stem-and-leaf display) : 줄기-잎 그림은 데이터를 순서대로 나열하면서 분포의 모양을 보여준다.
히스토그램이랑 비슷하지만, 실제 데이터 값을 보여준다는 장점이 있다.
왼쪽에 있는 게 줄기(stem)고, 오른쪽에 있는 게 잎(leaf)인 거다.
여기서 줄기는 10의 자리, 잎은 1의 자리를 나타낸다.
예를 들어 줄기 5와 잎의 2는 52, 줄기 5와 잎의 7은 57을 나타낸다.
이 줄기-잎 그림은 확장할 수도 있다.
만약에 위의 줄기-잎 그림 조차 답답해보인다면 아래 그림처럼 확장할 수 있다.
그리고 이런 정수만이 아닌 소수도 줄기-잎 그림으로 표현할 수 있다.
이렇게 그리면 8.6, 8.8 이렇게 이해가 가능하다.
그리고 잎의 단위가 10일 수도 있는데
이럴 때는 860, 880... 이런 식이 된다.(실제 데이터값은 862이거나 883일 수 있다)
그리고 탐색적 데이터 분석 기법 중
크로스탭(Crosstabulation)과 산점도(Scatter Diagram)이라는 것이 있다.
지금까지는 한 번에 하나의 변수만 다루는 방법에 대해 이야기했지만, 가끔은 두 변수가 어떻게 연관되어 있는지 알아보는 게 중요하다
그래서 크로스탭이나 산점도는 두 변수를 한 번에 요약하고 분석할 때 사용하는 방법이다.
크로스탭은 표 형식으로 두 변수의 관계를 보여주는 거고,
산점도는 그래프 형태로 두 변수 간의 패턴을 시각적으로 확인할 수 있게 해주는 도구다.
크로스탭을 사용할 때는 주로 세 가지 경우가 있다.
하나는 질적(qualitative), 즉 범주형(categorical) 변수고, 다른 하나는 양적(quantitative) 변수일 때.
두 변수 모두 질적일 때. 두 변수 모두 양적일 때. 사용한다.
다음과 같은게 크로스탭 표이다.
가격에 따라 어떤 집이 얼만큼 팔렸는지를 한 눈에 확인할 수 있게 한다.
여기서는 양적 변수인 Price Range와 질적(범주형) 변수인 Home Style관의 상관관계를 알아볼 수 있다.
$200,000 이하의 Colonial 스타일 집은 18채 팔렸고, $200,000 이상의 Log 스타일 집은 14채 팔렸다.
하지만 크로스탭에는 심슨의 역설(Simpson's Paradox)이라는 게 존재한다.
심슨의 역설은 통계에서 자주 나오는 헷갈리는 현상이다.
그룹을 합쳐서 본 결론과 세부적으로 봤을 때의 결론이 서로 다를 때 발생하는 상황이다.
예시로 두 그룹에서 각각 "A가 B보다 더 성과가 좋다"라는 결과가 나왔는데 이 두 그룹을 합쳐서 보면, 이상하게도 "B가 A보다 더 성과가 좋다"라는 반대 결과가 나오는 거다.
이처럼 가끔은 데이터를 합쳐서 보면 결론이 왜곡될 수 있기 때문에 조심해야 한다.
이제 산점도에 대해서 알아보자
산점도는 두 양적 변수의 관계를 보여주는 그래프다.
하나의 변수는 수평축 다른 변수는 수직에 표시된다.
각 데이터는 좌표로 표시되면서, 그래프에 점으로 나타나는 거다.
점들의 전반적인 패턴을 보면 두 변수 간의 관계를 파악할 수 있다.
예를 들어, 점들이 대각선으로 올라가면 두 변수는 양의 상관관계가 있는 거고, 대각선으로 내려가면 음의 상관관계를 가질 수 있다.
그리고 추세선(Trendline)은 이 점들의 패턴을 따르는 대략적인 직선이다.
이 직선을 보면, 두 변수 사이의 관계가 대략적으로 어떤 방향으로 흘러가는지 알 수 있다.
다음 그림은 산점도와 추세선을 나타내고 있다.
점이 산점도를 나타내고 점선이 추세선을 나타낸다.
대각선으로 올라가고 있으니 두 변수는 양의 상관관계를 가지고 있는 것을 확인할 수 있다.
다음은 또 다른 산점도 예시이다.
- Y축: 사람들이 종교를 매우 중요하다고 생각하는 비율(%).
- X축: 1인당 GDP, 즉 한 나라의 경제적 부유함을 나타내는 지표.
패턴을 살펴보면 X축 값이 커질수록(1인당 GDP가 높아질수록) Y축 값이 낮아진다.
즉, GDP가 높아지면 사람들이 종교를 중요하다고 여기는 비율이 낮아지는 경향을 보인다는 뜻이다.
간단히 말해서, 부유한 나라일수록 종교를 덜 중요하게 여기는 경향이 있다.
하지만 예외가 있을 수 있다.
예를 들어 미국 같은 경우는 GDP가 높지만 종교를 중요하게 생각하는 사람들의 비율이 높은 편이다.
이런 예외도 있지만 보통은 저런 경향이 있다라는 것을 보여준다.
'경제' 카테고리의 다른 글
변동성(혹은 분산)을 측정하는 방법 (0) 2024.09.07 평균, 중앙값, 최빈값, 그리고 백분위수 (0) 2024.09.07 데이터에 관하여-3 (4) 2024.09.02 데이터에 관하여-2 (0) 2024.09.02 데이터에 관하여 (2) 2024.09.01