경제

데이터에 관하여-2

개강한 공대생 2024. 9. 2. 00:05

Numerical Descriptive Statistics (수치형 기술 통계)에 관하여 설명하겠다

 

가장 일반적으로 사용되는 수치형 기술 통계량은 평균(Average)이다.

평균은 데이터의 중심 경향(central tendency)을 보여준다. 

중심 경향은 데이터가 대체로 어떤 값 주변에 몰려 있는지를 보여주는 통계적 개념이다.

예를 들어, 특정 부품의 평균 비용을 알면, 그 비용이 대체로 어느 정도인지 감을 잡을 수 있다.

 

다음으로, 데이터 분석에서 중요한 두 개념인 Population(모집단)Sample(표본)의 차이에 대해서 설명하겠다.

 

Population은 특정 연구에서 관심 있는 모든 요소들의 집합으로, 쉽게 말해 연구 대상 전체를 의미한다.

여기서 Census(전수 조사)라는 개념이 나오는데, 모집단 전체를 대상으로 데이터를 수집하는 것을 말한다.

예를 들어, 만약 우리가 한국에 있는 모든 고등학생의 평균 키를 알고 싶다면, 한국에 있는 모든 고등학생이 모집단이 되는 거다.

하지만, 모집단의 크기가 크기 때문에 전체 데이터를 수집하기엔 시간이나 비용이 많이 들 수 있다.

 

Sample은 모집단에서 선택된 부분 집합이다.

모집단 전체를 조사하는 대신, 그중 일부만 선택해서 분석하는 거다.

한국의 모든 고등학생 중에서 1000명을 뽑아서 그들의 키를 조사한다면, 이 1000명이 표본이 되는 거다.

표본은 모집단을 대표하도록 신중하게 선택돼야 한다.

올바르게 선택된 표본을 사용하면 전체 모집단에 대해 유효한 결론을 도출할 수 있으며, 시간과 비용 면에서 훨씬 효율적이다.

 

다음은 Statistical Inference (통계적 추론)에 대해 설명하겠다.

통계적 추론은 표본(Sample)에서 얻은 데이터를 사용해 모집단(Population)의 특성을 추정하고, 가설을 검정하는 과정이다.

다시 말해, 표본을 통해 모집단 전체에 대해 추론하는 거다.

접 모든 모집단을 조사하는 것이 현실적으로 어렵기 때문에, 표본 데이터를 기반으로 모집단의 특성을 추정하고, 특정 가설이 맞는지 검증하는 것이 통계적 추론의 주된 목적이다.

 

여기서 ParametersStatistics라는 개념이 나온다.

 

Parameters는 모집단의 특성을 설명하는 값이다.

예를 들어, 모집단의 평균, 분산, 비율 등이 Parameters에 해당한다.

만약 우리가 모든 고등학생의 평균 키를 알고 싶다면, 이 평균 키가 모집단의 Parameters가 되는 거다.

 

Statistics는 표본의 특성을 설명하는 값이다.

표본 평균, 표본 분산, 표본 비율 등이 Statistics에 해당한다.

모집단의 일부분인 100명의 고등학생의 키를 측정해 그 평균을 구하면, 그 값이 Statistics가 되는 거다.

 

통계적 추론은 표본에서 계산한 Statistics를 사용해 모집단의 Parameters를 추정하거나, 모집단에 대한 가설을 검정하는 과정이다.

예를 들어, 표본 평균이 170cm라면, 이를 바탕으로 모집단의 평균 키가 170cm 근처일 것이라고 추론하는 거다.

 

핵심 포인트는 다음과 같다.

모집단 전체를 조사하는 것은 비용이나 시간 면에서 비효율적이기 때문에, 표본을 이용해 추정하는 방법이 효율적이다.

잘 선택된 표본을 통해 모집단에 대한 신뢰할 만한 결론을 도출할 수 있다.

 

 

마지막으로, 통계적 연구와 실천에서 윤리적 행동의 중요성에 대해 언급하겠다.

비윤리적인 행동은 결과를 왜곡하고, 신뢰성을 떨어뜨리기 때문에, 통계 작업에서 항상 공정하고 객관적인 태도를 유지해야 한다.

그리고 통계 결과를 받아들이는 사람들도 비윤리적 행동에 대해 경각심을 가지고 있어야 한다.