데이터에 관하여
Elements (요소): 데이터가 수집되는 대상. 예를 들어, 설문 조사에서 응답자 한 명 한 명이 바로 요소다.
Variables (변수): 요소의 특징이나 속성. 예를 들어, 연간 매출 등이 있다.
Observation (관찰값): 한 요소에 대해 수집된 정보의 집합. 테이블의 한 행(row)이 바로 관찰값이 되는 거다.
Dataset (데이터 세트): 특정 연구에서 수집된 모든 데이터. 모든 Observation을 모아놓은 것이라고 생각하면 될 듯.
다음 이미지를 보면 이해하기 쉬워진다.

이제 데이터 측정에 사용되는 네 가지 척도를 알아보자
각각의 척도는 데이터가 얼마나 많은 정보를 담고 있는지 결정하고, 그에 따라 적절한 요약 방법이나 통계 분석 방법이 달라진다.
Nominal (명목척도): 이름이나 범주를 구분하는 데 사용된다. 예를 들어, 성별(남/여)이나 혈액형(A/B/O/AB) 같은 것이다.
Ordinal (서열척도): 순서가 있는 데이터를 나타낸다. 설문지에서 '매우 만족', '만족', '보통', '불만족', '매우 불만족' 같은 응답들이 있다. 순서가 중요하지만, 각 단계 간의 간격이 일정하다는 보장은 없다.
Interval (간격척도): 순서도 있고, 값들 사이의 간격도 의미를 가진다. 예를 들어, 온도(섭씨나 화씨)가 있다. 하지만 0이 '없음'을 의미하는 건 아니다. 0도라고 해서 온도가 없는 건 아니니까
Ratio (비율척도): 간격척도와 비슷하지만, 0이 '없음'을 의미한다. 예를 들어, 무게, 키, 나이 같은 게 있다. 여기서는 0이 진짜로 아무것도 없다는 의미여서 비율 계산이 가능하다. 2kg은 1kg의 두 배라는 식으로 말이다.
이 척도에도 수준이 있는데 수준이 높은 순서대로
Ratio Data > Interval Data > Ordinal Data > Nominal Data
이 된다.
Nominal Data와 Ordinal Data가 Qualitative Data(질적 데이터)로 분류되고
Interval Data와 Ratio Data는 Quantitative Data(양적 데이터)로 분류된다.
명목척도는 범주나 카테고리로 데이터를 구분할 때 사용된다.
다음을 예시로 들 수 있다.

이미지에 있는 학생들이 좋아하는 색상이 나와 있다.
여기서 Red, Blue, Green, Yellow 같은 색깔들이 바로 범주다.
이 색깔들은 특정 순서나 크기를 나타내지 않는다.
그러니 여기서 Favorite color는 범주형 변수( Categorical Variable )가 되는 것이다.
이 변수는 숫자나 양을 나타내지 않고, 단지 서로 다른 그룹을 구분한다.
이 범주들 사이에는 순서가 없다는 것도 중요하다.
서열척도는 데이터의 순서를 나타내지만, 각 순서 사이의 간격이 반드시 일정하지는 않다는 특징이 있다.

여기서 교육 수준이 서열척도의 예시로 사용됐다.
이 순서들은 명확한 순서가 있다.
고등학교 졸업이 학사 학위보다 낮은 수준이고, 석사 학위가 박사 학위보다 낮은 수준이지 않은가
각 교육 수준은 순서가 있으니까, 이걸 서열척도로 보는 거다.
중요한 건, 순서는 있지만 각 단계 사이의 차이가 동일하다고 볼 수는 없다는 거다.
예를 들어, 학사 학위에서 석사 학위로 가는 것과 석사에서 박사로 가는 게 동일한 노력을 의미하지 않지 않은가?
간격척도는 데이터 사이의 차이가 일정하고 의미를 가지는 척도다.
하지만 절대적인 0이 없고, 즉 0이라는 값이 '없음'을 의미하지 않는다는 특징이 있다.

이 표에서는 학생들의 IQ 점수를 보여주고 있다.
130이나 120 같은 숫자들은 간격척도의 값이다.
이 점수들은 숫자로 표현되지만, 0이라는 값이 '지능이 아예 없다'는 걸 의미하지는 않는다.
간격척도는 수치적인 데이터를 다룬다.
이 값들은 모두 숫자로 표현되고, 각 점수 간의 차이도 의미를 가진다.
아무튼 중요한 것은, 간격 간에 의미가 있고 진정한 0이 없다는 것이다.
비율척도는 데이터 사이의 차이가 의미가 있고, 절대적인 0이 존재하는 척도다.

나이는 비율척도의 대표적인 예시다.
예를 들어, 35세와 21세는 정확한 나이 차이가 있고, 0세는 태어나지 않았다는 걸 의미한다.
그래서 이건 절대적인 0이 존재하는 데이터다.
그리고 나이 사이의 차이도 의미가 있다.
예를 들어, 35세와 21세의 차이는 14년, 그리고 이 차이는 명확하게 해석될 수 있다.
비율척도의 또 다른 예시로, 체중도 절대적인 0이 존재한다.
소득도 비율척도다. 0원의 소득은 아무 소득도 없다는 걸 의미하고, 소득 간의 차이도 의미가 있다.
이제 범주형 데이터와 수치형 데이터의 차이를 알아보자
Categorical Data (범주형 데이터)는 특정 범주로 그룹화될 수 있는 데이터를 말한다.
예를 들어, 성별, 좋아하는 색상, 교육 수준 같은 것들이 있다.
이 데이터는 숫자로 나타내기보다는 범주나 이름으로 구분된다.
다만!! 숫자로 된 경우도 있다.
Nominal 데이터와 같은 경우, 축구 선수의 등번호와 같은 데이터가 있고
Ordinal은 등수, 순위 등이 있다.
1등과 2등 사이의 차이가 2등과 3등 사이의 차이와 같다고 할 수 없지 않은가?
Quantitative Data (수치형 데이터)는 얼마나 많이 혹은 얼마나 큰지를 나타내기 위해 숫자 값을 사용하는 데이터를 말한다.
이 데이터는 숫자로 나타나며, 연산이 가능하다.
범주형 데이터를 가지는 변수는 범주형 변수로, 수치형 데이터를 가지는 변수는 수치형 변수로 부른다.
예를 들어, 학생들의 좋아하는 색상을 나타내는 변수는 범주형 변수고, 학생들의 나이를 나타내는 변수는 수치형 변수다.
자, 이제부터는 조금 다른 개념이 나온다.
Cross-sectional data (횡단면 데이터)와 Time-series data (시계열 데이터)의 차이점을 알아보자.
횡단면 데이터는 특정 시점에 다양한 요소들에서 수집된 데이터를 말한다.
한 시점에서 여러 요소(예: 여러 지역, 여러 사람, 여러 제품 등)에 대한 데이터를 수집하는 거다.
예시를 들어보겠다.
"2010년 앨라배마 주의 여러 카운티에서 발급된 건축 허가 건수 데이터"가 여기에 해당된다.
특징으로는 여러 요소가 한 시점에 포함된다.
시계열 데이터는 하나의 요소에 대해 여러 시점에서 수집된 데이터를 말한다.
시간이 흐름에 따라 같은 요소에서 데이터를 반복해서 수집해 분석하는 거다.
예시를 들어보겠다.
"앨라배마 주의 특정 카운티에서 지난 36개월 동안 발급된 건축 허가 건수 데이터" 가 여기에 해당된다.
이 데이터는 한 카운티에서 36개월 동안 매달 수집된 거다.
특징으로는 하나의 요소에 대해 여러 관찰값이 포함된다.
Cross-sectional 데이터는 다양한 요소를 비교하는 데 유리하고, Time-series 데이터는 시간에 따른 변화를 분석하는 데 유리하다.
다음은 데이터 출처에 대한 두 가지 주요 유형에 대해 설명하겠다.
Experimental data (실험 데이터)와 Observational data (관찰 데이터)가 있다.
실험 데이터는 연구자가 특정 변수를 통제하고 조작하여, 그 변수가 다른 변수에 미치는 영향을 조사하는 과정에서 수집되는 데이터다.
여기서 연구자는 관심 있는 변수를 먼저 정한 다음, 다른 변수들을 통제하거나 조작해서 그 결과를 분석한다.
연구자는 한 변수(독립 변수)를 조작하고, 그 조작이 다른 변수(종속 변수)에 어떤 영향을 미치는지를 분석한다.
예를 들어, 새로운 약물을 테스트할 때, 실험군(약물을 투여받은 그룹)과 대조군(약물을 투여받지 않은 그룹)을 비교하는 것처럼 말이다.
이렇게 해서 두 그룹 간의 차이를 비교하는 거다.
관찰 데이터는 연구자가 변수들을 조작하지 않고, 자연스럽게 일어나는 상황에서 데이터를 수집하는 방법이다.
그저 관찰만 한다. ㅋㅋ
설문 조사, 흡연자와 비흡연자에 대한 연구가 이에 해당한다.
연구자는 사람들이 흡연을 할지 말지를 결정하지 않고, 그냥 흡연자와 비흡연자의 건강 상태를 관찰하는 거다.
Experimental data는 인과 관계를 밝히는 데 유용하고, Observational data는 자연스러운 상태에서 변수들 간의 관계를 이해하는 데 유용하다.
다음은 데이터를 요약하고 이해하기 쉽게 만드는 방법인 기술 통계(Descriptive Statistics)에 대해 설명하겠다.
기술 통계는 데이터를 요약하고 간단하게 표현하는 데 사용되는 통계적 방법이다.
주로 데이터의 중심 경향(평균 등), 분포(최소, 최대, 표준편차 등), 그리고 데이터의 형태를 시각화하는 데 쓰인다.
대규모 데이터를 간단한 수치나 그래프로 요약해서 전체적인 경향이나 분포를 파악할 수 있게 한다.