https://alpaca-code.tistory.com/326
확률및 통계학] 범주형 자료의 요약
1. 도수 분포표 (frequency table): 범주형 자료에서 범주와 그 범주에 대응하는 도수를 나열한 도표 도수 : 범주에 속하는 관측값의 개수상대 도수 : 해당 범주의 도수 / 전체 자료의 수 도수 분포표는
alpaca-code.tistory.com
수치형 자료의 요약
저번에는 범주형 자료의 요약을 했기 때문에, 수치형 자료는 어떻게 요약할지에 대해서 알아본다.
여기서 말하는 수치형 자료란 연속형 자료를 대상으로 한다.
도수 분포표
마찬가지로 도수분포표를 사용한다. 하지만 범주가 없는데 뭘로 이 대상들을 나눌까?

여기서는 범주를 직접 제작한다. 예를 들어서 키라는 자료가 있다고 하면
160cm - 170cm, 170cm - 180cm 을 범위로 묶는 식이다.
이 10cm라는 구간과 160cm라는 최솟값 등 설정해야할게 여럿 생기는데,
이를 위한 공식들을 뒤에서 알아본다.
1. 범위(R) 계산.
우선 범위 R을 먼저 계산한다. 최댓값(U) - 최솟값(L)으로 구할 수 있다.
2. 계급의 수(C) 정하기
계급의 수는 5 - 15 중에 '적당히' 골라야한다. 완벽하게 일치하는
숫자를 찾기보다는 확률적인 경향이 있다.
따라서 적절한 수를 찾는 데 도움이 되는 공식이 몇 있다.
Sturger의 법칙이라 해서, c = 3.3 log_10^n + 1을 반올림하면
적절한 계급의 수가 나온다.. 뭐 이런 말이 있다.
교수님의 말로는 일단 여러번 해서 감을 찾아야한다고 한다.
3. 계급의 간격 정하기
계급의 폭을 정해서 계급의 간격을 만들어야한다. C를 정했다면
범위 R을 C로 나눠주면 된다. 적어도 R/C 숫자 이상의 수를 고르면 된다.
4. 하한을 정하고 계급 배치하기
가장 낮은 범위. 나의 예시대로라면 160cm를 정해두고 계급의 폭 10cm를
쌓아서 각 계급을 표현해주면 된다.

이후에는 개수를 세서 도수를 구하고, 상대도수도 구할 수 있고.. 표를 채워주면 된다.
히스토그램
막대그래프 형제같은 애가 있다.
x축에는 계급값이라는 애가 들어가고 y축에 도수를 넣어줘 표시해주면 된다.

계급값은 그 범위의 평균이라 생각하면 된다.
히스토그램의 특징 중 하나로, 막대의 면적이 상대도수를 나타낸다는 점이 있다.
따라서 막대 아래 면적을 모두 더하면 1이 나온다.
상대도수 다각형
히스토그램의 가장 높은 중앙 부분을 점으로 연결한 그래프이다.
줄기 - 잎 그림
오랜만에 들어보는 것 같다. 무슨 중학교때 아무 의미 없이 잠깐 나온 듯 기억난다.
음.. 대충 다 적으면 된다.

이론적으로는 이러한 절차가 있다.

교수님의 설명에서는, 항상 뒤에는 일의 자리만 남기라고 하셨다.
'대학교 개발 커리 > 확률 및 통계학' 카테고리의 다른 글
| 확률 및 통계학] 변이(변동) 계수, 왜도, 첨도 (0) | 2026.03.25 |
|---|---|
| 확률 및 통계학] 분산된 정도에 대한 여러 척도 (0) | 2026.03.25 |
| 확률및 통계학] 범주형 자료의 요약 (0) | 2026.03.11 |
| 확률및 통계학] 자료의 형태 정리 (0) | 2026.03.11 |
댓글