경제
-
변동성(혹은 분산)을 측정하는 방법경제 2024. 9. 7. 22:44
평균 같은 것만으로는 데이터가 어떻게 퍼져 있는지 알 수 없으니 데이터가 얼마나 흩어져 있는지 알려주는 방법을 알아야 한다.그런 방법들은 아래와 같다. Range: 데이터에서 가장 큰 값과 가장 작은 값의 차이를 말한다. 제일 간단한 변동성 측정 방법이다. Interquartile Range (IQR): 제1사분위수(Q1)와 제3사분위수(Q3)의 차이다. 즉, 데이터 중간 50%가 어디에 몰려 있는지를 보여주는 거다.극단적인 값(이상치)의 영향을 덜 받으니 많이 쓰인다. Variance(분산): 각 데이터가 평균에서 얼마나 떨어져 있는지를 계산한 값이다. 평균과의 차이(편차)를 제곱해서 다 더하고, 데이터 개수로 나눈 값이다. 분산이 크면 데이터가 많이 퍼져 있는 거고, 작으면 덜 퍼져 있다는 뜻이다...
-
평균, 중앙값, 최빈값, 그리고 백분위수경제 2024. 9. 7. 20:57
Mean: 평균값이다. 다 더해서 개수로 나누는 거 Median: 중앙값인데, 데이터를 크기 순으로 나열했을 때 딱 가운데 오는 값이다.(Median Filtering이 생각난다)극단적인 값(이상치, outliers)가 있을 때 평균보다 중앙값을 더 신뢰할 수 있다.예를 들어, 부자 한 명이 엄청나게 많은 돈을 벌고 있는 집단에서는 평균을 쓰면 부자가 전체 평균을 확 끌어올려서 나머지 사람들이 모두 부자인 것처럼 보이기 때문이다 ㅋㅋ하지만 중앙값을 쓰면 그 극단적인 값을 무시하고 전체의 중간 위치를 보여준다.근데 만약 짝수개의 데이터가 있으면.. 어떤 값이 중앙값이 될까?만약 4개의 값이 있다면 2번째, 3번째 값 중 어떤 값이 중앙값이 될까?데이터셋이 1, 2, 3, 4라고 해보자.여기서 가운데에 있는..
-
탐색적 데이터 분석(Exploratory Data Analysis)경제 2024. 9. 7. 20:30
탐색적 데이터 분석은 데이터를 분석하기 전에 그 데이터를 시각적으로 탐색하고, 패턴이나 이상점 같은 것들을 찾아내는 방법이다. 말하자면, 데이터를 정리하고 시각적으로 표현해서 "이 데이터가 어떤 특성을 가지고 있나?"를 알아보는 거다.탐색적 데이터 분석(Exploratory Data Analysis) 기법들에 대해서 알아보자 줄기-잎 그림(stem-and-leaf display) : 줄기-잎 그림은 데이터를 순서대로 나열하면서 분포의 모양을 보여준다. 히스토그램이랑 비슷하지만, 실제 데이터 값을 보여준다는 장점이 있다. 왼쪽에 있는 게 줄기(stem)고, 오른쪽에 있는 게 잎(leaf)인 거다.여기서 줄기는 10의 자리, 잎은 1의 자리를 나타낸다.예를 들어 줄기 5와 잎의 2는 52, 줄기 5와 잎의..
-
데이터에 관하여-3경제 2024. 9. 2. 00:36
Categorical Data (범주형 데이터)를 요약하는 여러 가지 방법을 소개하겠다.범주형 데이터는 숫자가 아닌 범주나 그룹으로 나눌 수 있는 데이터를 말한다. Frequency Distribution은 각 범주나 그룹에 속하는 데이터의 개수를 나타낸 거다.예를 들어, 어떤 설문 조사에서 "예"라고 답한 사람의 수가 30명, "아니오"라고 답한 사람의 수가 20명이라면, 이 숫자들이 빈도 분포를 구성한다. Relative Frequency Distribution은 각 범주의 빈도를 전체 데이터 개수로 나눈 값을 의미한다.즉, 각 범주가 전체에서 차지하는 비율을 나타내는 거다.예를 들어, 전체 응답자 수가 50명이고 그중 30명이 "예"라고 답했다면, "예"의 상대 빈도는 30/50 = 0.6 또는 6..
-
데이터에 관하여-2경제 2024. 9. 2. 00:05
Numerical Descriptive Statistics (수치형 기술 통계)에 관하여 설명하겠다 가장 일반적으로 사용되는 수치형 기술 통계량은 평균(Average)이다.평균은 데이터의 중심 경향(central tendency)을 보여준다. 중심 경향은 데이터가 대체로 어떤 값 주변에 몰려 있는지를 보여주는 통계적 개념이다.예를 들어, 특정 부품의 평균 비용을 알면, 그 비용이 대체로 어느 정도인지 감을 잡을 수 있다. 다음으로, 데이터 분석에서 중요한 두 개념인 Population(모집단)과 Sample(표본)의 차이에 대해서 설명하겠다. Population은 특정 연구에서 관심 있는 모든 요소들의 집합으로, 쉽게 말해 연구 대상 전체를 의미한다.여기서 Census(전수 조사)라는 개념이 나오는데, ..
-
데이터에 관하여경제 2024. 9. 1. 23:45
Elements (요소): 데이터가 수집되는 대상. 예를 들어, 설문 조사에서 응답자 한 명 한 명이 바로 요소다.Variables (변수): 요소의 특징이나 속성. 예를 들어, 연간 매출 등이 있다.Observation (관찰값): 한 요소에 대해 수집된 정보의 집합. 테이블의 한 행(row)이 바로 관찰값이 되는 거다.Dataset (데이터 세트): 특정 연구에서 수집된 모든 데이터. 모든 Observation을 모아놓은 것이라고 생각하면 될 듯. 다음 이미지를 보면 이해하기 쉬워진다. 이제 데이터 측정에 사용되는 네 가지 척도를 알아보자각각의 척도는 데이터가 얼마나 많은 정보를 담고 있는지 결정하고, 그에 따라 적절한 요약 방법이나 통계 분석 방법이 달라진다. Nominal (명목척도): 이름이나 ..
-
선형 회귀 모델이란?경제 2024. 8. 27. 00:27
여러 변수를 조합해서 최선의 선(라인)을 찾아내는 건데, 이 선이 모든 결과를 예측해주는 거다. 자신이 아이스크림 가게를 운영하고 있다고 생각해봐라매일 얼마나 아이스크림을 팔았는지(이게 독립 변수야)와 그날의 매출(이게 종속 변수) 사이의 관계를 알고 싶어졌다.당연히, 아이스크림을 많이 팔수록 매출이 올라간다. 독립 변수 (x) - 루에 팔린 아이스크림의 수종속 변수 (y) - 그날의 총 매출 이제 선형 회귀 모델은, "얼마나 많은 아이스크림을 팔았는지(x)와 그에 따라 매출이 얼마나 나왔는지(y)를 가장 잘 설명하는 직선을 찾아보자"라는 거다. 이 직선은 이렇게 생겼을 거다.y = mx + cm은 내가 아이스크림 하나 팔 때마다 매출이 얼마나 증가하는지를 보여주는 기울기c는 내 가 아이스크림을 한 개도..
-
매출과 주당순이익(EPS)의 관계경제 2024. 8. 19. 12:25
매출은 회사가 제품이나 서비스를 팔아서 벌어들인 총 수입이다. 하지만 이건 순이익이 아니다.매출에서 모든 비용(운영비, 원가, 세금 등)을 빼야만 순이익이 나온다. 주당순이익(EPS)는 회사의 순이익을 총 발행 주식 수로 나눈 값이다.한 주당 얼마나 많은 이익이 발생했는지를 보여주는 거다. EPS가 높을수록, 그 회사가 돈을 잘 벌고 있다는 의미다. 매출이 증가하면 EPS도 증가할 가능성이 높다.하지만 매출이 늘었다고 해도 비용이 더 많이 늘어나거나, 이익률이 낮아지면 매출이 늘어도 EPS는 크게 증가하지 않을 수 있다. 매출 대비 비용 구조가 중요하다.예를 들어, 두 회사가 모두 1,000억 원의 매출을 올렸다고 해도, 한 회사는 비용이 900억 원이고, 다른 회사는 700억 원이라면, 당연히 순이익과..