-
데이터에 관하여-3경제 2024. 9. 2. 00:36
Categorical Data (범주형 데이터)를 요약하는 여러 가지 방법을 소개하겠다.
범주형 데이터는 숫자가 아닌 범주나 그룹으로 나눌 수 있는 데이터를 말한다.
Frequency Distribution은 각 범주나 그룹에 속하는 데이터의 개수를 나타낸 거다.
예를 들어, 어떤 설문 조사에서 "예"라고 답한 사람의 수가 30명, "아니오"라고 답한 사람의 수가 20명이라면, 이 숫자들이 빈도 분포를 구성한다.
Relative Frequency Distribution은 각 범주의 빈도를 전체 데이터 개수로 나눈 값을 의미한다.
즉, 각 범주가 전체에서 차지하는 비율을 나타내는 거다.
예를 들어, 전체 응답자 수가 50명이고 그중 30명이 "예"라고 답했다면, "예"의 상대 빈도는 30/50 = 0.6 또는 60%가 되는 거다.
Percent Frequency Distribution은 상대 빈도를 백분율로 나타낸 거다.
앞서 예시에서 "예"의 상대 빈도가 0.6이었는데, 이걸 60%로 표현하는 것이 백분율 빈도 분포다.
Bar Chart는 범주형 데이터를 시각적으로 표현하는 방법으로, 각 범주에 해당하는 빈도나 상대 빈도를 막대의 길이로 나타낸 그래프다.
막대는 수평 또는 수직으로 그릴 수 있다.
Pie Chart는 범주형 데이터를 원형으로 표현하여, 각 범주가 전체에서 차지하는 비율을 시각적으로 보여주는 그래프다.
원 전체가 100%를 나타내고, 각 조각이 특정 범주의 비율을 나타낸다.
원은 총 360도인데, 각 범주의 상대 빈도를 이용해 그 범주가 차지하는 각도를 계산할 수 있다.
예를 들어, 상대 빈도가 0.25(25%)인 범주는 원의 360도의 25%를 차지하게 되니, 0.25 x 360 = 도로 표현된다.
원형 그래프는 비율이나 백분율로 데이터를 표현할 때 유용하며, 특히 설문조사나 품질 평가 결과 등을 시각화할 때 자주 사용된다.
다음은 Quantitative Data (수치형 데이터)를 요약하는 방법을 알아보자
수치형 데이터는 숫자로 표현되며, 이를 요약하고 시각화하는 다양한 방법들이 있다.
수치형 데이터에서 Frequency Distribution은 특정 범위에 속하는 데이터의 개수를 나타낸 거다.
예를 들어, 시험 점수 데이터를 구간별로 나누어 각 구간에 몇 명의 학생이 속하는지 표시할 수 있다.
Relative Frequency는 각 구간에 속하는 데이터의 개수를 전체 데이터의 개수로 나눈 값이다.
Percent Frequency는 이 값을 백분율로 표현한 것이고. 범주형 데이터의 경우와 유사하지만, 수치형 데이터에서는 각 구간별로 나뉘어 계산된다.
Dot Plot은 데이터의 개별 값을 점으로 표시하는 그래프다.
수평 축 위에 각 데이터를 점으로 찍어 나열한다.
데이터가 어떻게 분포되어 있는지, 특히 중복되는 값이 얼마나 많은지 시각적으로 쉽게 파악할 수 있다.
특히, 작은 데이터셋에서 유용하다.
Histogram은 구간별로 데이터를 묶어 막대 그래프로 표현한 거다.
각 막대의 높이는 해당 구간에 속하는 데이터의 빈도 또는 비율을 나타낸다.
연속적인 데이터에서 특히 많이 사용된다.
각각의 분포 형태를 살펴보자
대칭적 분포 (Symmetric Distribution) 는 좌우가 거의 동일하게 생긴 분포를 말이다. 즉, 왼쪽 꼬리와 오른쪽 꼬리가 거울에 비친 것처럼 서로 대칭인 형태를 가진다는 뜻이다.
다음이 대칭적 분포이다.
왼쪽으로 치우친 분포 (Left-Skewed Distribution) 는 데이터의 대부분이 오른쪽에 몰려 있고, 왼쪽 꼬리가 길게 늘어져 있는 분포를 말한다.
다음을 얘기한다.
오른쪽으로 치우친 분포 (Right-Skewed Distribution) 는 왼쪽에 데이터가 몰려 있고, 오른쪽 꼬리가 길게 늘어져 있는 분포를 말한다.
위 사진의 반대 모양이라고 생각하면 된다.
Cumulative Distribution은 각 구간까지의 데이터를 누적해서 합한 값을 나타내는 분포다.
예를 들어, 시험 점수에서 70점 이하를 받은 학생이 전체의 몇 퍼센트인지를 파악할 수 있다.
Ogive는 누적 빈도나 누적 백분율을 선으로 연결한 그래프다.
보통 수평 축에는 데이터의 구간을, 수직 축에는 누적 빈도 또는 누적 백분율을 표시한다.
'경제' 카테고리의 다른 글
평균, 중앙값, 최빈값, 그리고 백분위수 (0) 2024.09.07 탐색적 데이터 분석(Exploratory Data Analysis) (0) 2024.09.07 데이터에 관하여-2 (0) 2024.09.02 데이터에 관하여 (2) 2024.09.01 선형 회귀 모델이란? (0) 2024.08.27