[내일배움캠프_QA/QC 5기] 29일차

내일배움캠프(QC,QA_5기)

[내일배움캠프_QA/QC 5기] 29일차 _ 기초 통계 2강

qc-standard 2026. 4. 16. 20:18

2026/04/16 Thu.

Ｏ	● 코드카타 2문제
Ｏ	● 아티클 스터디
Ｘ	● 통계학 강의 집중
↓ 주간 목표 ↓
	● 전처리 / 데이터 리터러시 완강 ● 통계 완강 ● 머신러닝 기초 완강 ● 라이브 세션 당일 복습 ● 포트폴리오 ppt ● 자격증 공부

⊙ 코드카타 2문제

https://qc-standard.tistory.com/54

⊙ 아티클 스터디

주제 : "파이썬 초보자가 저지르는 10가지 실수"

https://qc-standard.tistory.com/55

⊙ 통계학 기초 - 2강

● 모집단과 표본

☑️ 모집단 : 전체

☑️ 표본 : 일부

☑️ 왜 표본은 사용하는가?

현실적인 제약
- 비용과 시간
: 모집단 - 애초에 불가능하거나 비효율적
: 표본 조사 - 절약하면서도 유의미한 결과를 도출할 수 있는 방법
- 접근성
: 물리적으로 불가능한 경우 (ex - 생산되는 자동차의 성능 테스트)
대표성
- 표본의 대표성
: 잘 설계된 모집단의 특성을 반영
: 표본에서 얻은 결과를 모집단 전체의 일반화
: 무작위로 표본을 추출하면 편향을 최소화하고 모집단의 다양한 특성을 포함
데이터 관리
- 데이터 처리의 용이성
: 데이터 처리와 분석이 훨씬 용이
: 큰 데이터셋은 분석에 많은 컴퓨팅 자원 절약에 용이
- 데이터 품질 관리
: 작은 표본에서는 데이터 품질을 더 쉽게 관리
: 오류나 이상값을 식별하여 수정 가능
모델 검증 용이
- 모델 적합도 테스트
: 모델이 표본 데이터에 잘 맞는다면, 모집단에도 잘 맞을 가능성이 높음

☑️ 전수조사

: 모집단 전체 조사
: 대규모일 경우 비용과 시간의 많은 소요

☑️ 표본조사

: 표본만을 조사하는 방법
: 비용과 시간이 적게 들지만, 표본이 대표성을 가져야 함

☑️ 실제로 모든 데이터를 수집할 수 없을 때 표본 사용

: 도시 연구 | 의료 연구 | 시장조사 | 정치 여론 조사

☑️ 실습

numpy. random

○ Numpy 라이브러리의 일부
○ 일반적인 정규분포 형태로 모집단 데이터 만들 수 있음 (정규분포 - 가운데 높고 가장자리가 낮은 분포형태)
○ random한 상황에서 쓰임

○ loc (float): 정규분포의 평균 (기본값: 0.0)
○ scale (float): 정규분포의 표준편차 (기본값: 1.0)
○ size (int 또는 tuple of ints): 출력 배열의 크기 = 데이터 개수
→ loc(평균) scale(표준편차) 를 따로 입력하지 않으면 기본값으로 설정되어 표준정규분포

numpy.random.choice

○ 주어진 배열에서 임의로 샘플링하여 요소를 선택 = 랜덤으로 무작위 추출

○ a : 샘플링할 원본 배열 = 어디서 부터 가져올건지
○ size : 개수
복원 추출 : 중복된 값을 허용해주는 것 - 기본값 True = 중복되도 됨

plt.hist

○ 데이터 분포를 시각화하는데 유용한 도구
○ bins : 구간을 몇개로 할지
○ alpha 투명도
○ label : 범례

○ 평균 170 | 편차 10 | 데이터 1000개
○ 랜던하게 뽑을 거고 population(모집단)에서 100개 뽑을 거다

○ 히스토그램 - population(모집단) 나타내고
○ 히스토그램 - sample(표본) 나타내고

● 표본오차와 신뢰구간

☑️ 표본오차 (Sampling Error)

: 표본은 모집단에서 일부 추출된 것으로 표본과 모집단 사이 오차가 없을 수 없음,,, 그 오차가 표본오차
: 표본에서 계산된 통계량과 모집단의 진짜 값 간의 차이
: 표본 크기(=데이터 개수)가 클수록 표본 오차는 작아짐
- 표본의 크기(=데이터 개수) : 표본의 크기가 클수록 표본오차는 줄어듦 | 많은 데이터를 수집할수록 모집단을 더 잘 대표함
- 표본 추출 방법 : 무작위 추출 방법 사용하면 표본오차를 줄어듦 | 모집단 모든 요소가 선택될 동등한 기회를 가져야 함

☑️ 신뢰구간 (Confidence Interval)

:신뢰구간은 모집단의 특정 파라미터(예: 평균, 비율)에 대해 추정된 값이 포함될 것으로 기대되는 범위
<신뢰구간 계산 방법>
- 신뢰구간=표본평균±z×표준오차
- z는 선택된 신뢰수준에 해당하는 z-값입니다. 예를 들어, 95% 신뢰수준의 z-값은 1.96입니다.
- 일반적으로 95% 신뢰수준을 많이 사용합니다

☑️ 실습

○ 수학점수 표본으로부터 모집단의 평균 범위를 계산해보자
○ 100명의 학생을 표본으로 추출하여 그들의 평균 수학 점수를 구하고, 이 점수의 신뢰구간을 계산

○ stats.t.interval란 무엇
: t-분포를 사용하여 신뢰 구간(confidence interval)을 계산하는 함수

○ alpha : 신뢰 수준
○ df : 자유도(degrees of freedom)를 나타냅니다. 일반적으로 표본 크기(데이터 개수)에서 1을 뺀 값으로 설정
○ loc : 위치(parameter of location)로, 일반적으로 표본 평균을 설정
○scale
: 스케일(parameter of scale)로, 일반적으로 표본 표준 오차(standard error)를 설정
:표본 표준 오차는 표본 표준편차를 표본 크기의 제곱근으로 나눈 값
: scale = sample_std / sqrt(n)
: sample_std : 샘플의 표준편차 | sqrt(n) : 데이터 개수의 제곱근

● 정규분포 : 가장 대표적인 분포

빨간색 그래프 = 정규 분포 中 가장 표준적인 형태 = 분산 1, 평균 0 = 표준정규분포

μ - 뮤 - 평균 | σ² - 시그마 제곱 - 분산 | σ - 시그마 - 표준편차

☑️ 정규분포

: 종모양의 대칭 분포

: 대부분 데이터가 평균 주위에 몰려 있음

: 평균을 중심으로 좌우 대칭

: 평균에서 멀어질수록 데이터의 빈도가 감소

: 표준 편차는 분포의 퍼짐 정도

☑️ 정규분포 - 특징

: 대부분의 데이터가 평균 주변에 몰려 있으며, 평균에서 멀어질수록 빈도가 줄어듦

☑️ 정규분포 - 예시

: 대부분의 상황에서 관찰되는 분포
: 키와 몸무게 | 시험 점수(큰집단 경우) | 대부분의 상황에 가능 - 데이터 수가 많을 때

☑️ 실습

표본 데이터가 정규분포를 띈다면 모집단도 정규분포를 띌 수 있음

● 긴 꼬리 분포 (long tail distribution)

일부가 전체에 큰 영향을 미칠 때

☑️ 긴 꼬리 분포

: 긴 꼬리 분포는 대부분의 데이터가 분포의 한쪽 끝에 몰려 있고, 반대쪽으로 긴 꼬리가 이어지는 형태의 분포

: 대칭적이지 않음 = 비대칭적

: 파레토분포, 지프의 법칙 멱함수가 포함

☑️ 긴 꼬리 분포 - 특징, 예시

: 일부가 전체적으로 큰 영향을 미치는 경우

: 소득분포 | 온라인 쇼핑 | 도서 판매

: 아무리 데이터가 많아져도 정규분포 되지 않음

☑️ 실습

● 스튜던트 t 분포 = 표본이 적을 때 정규분포 대신 사용

검은색 ν(자유도)가 무한에 가까워진 상태

자유도 ≒ 데이터 개수랑 관련 있는 값

☑️ 스튜던트 t 분포

: t분포는 모집단의 표준편차를 알 수 없고 표본의 크기가 작은 경우(일반적으로 30미만)에 사용되는 분포

: 표본의 크기가 작을수록 꼬리가 두꺼워지는 특징

☑️ 스튜던트 t 분포- 특징

: 표본 크기(데이터 개수)가 커지면 정규 분포에 가까워짐

☑️ 스튜던트 t 분포 - 예시

: 데이터가 적은 경우 사용

: 작은 표본의 평균 비교 | 약물 시험

☑️ 실습

● 카이제곱분포 = 독립성 검정 / 적합도 검정에 사용

대표적 검은색 | k 자유도=데이터 표본=데이터 개수

☑️ 카이제곱 분포

: 카이제곱분포는 범주형 데이터의 독립성 검정이나 적합도 검정에 사용되는 분포

☑️ 카이제곱 분포 - 특징

: 자유도에 따라 모양이 달라짐

: 데이터 수가 많아질수록 정규분포에 근사할 수 있음

: 상관관계나 인과관계를 판별하고자 하는 원인의 독립변수가 ‘완벽하게 서로 다른 질적 자료’일 때 활용 - ex) 성별이나 나이에 따른 선거 후보 지지율

: 범주형 데이터 분석에 사용

☑️ 카이제곱 분포 - 예시

: 독립성 검정이나 적합도 검정이 필요할 때

: 독립성 검정 - 두 범주형 간의 관계가 있는지 - 숫자형에서는 상관관계

: 적합도 검정

☑️ 실습

● 이항분포 = 결과가 2개 나오는 상황에서 사용

특정한 정수값만 가질 수 있어서 연속형 분포가 아닌 이산형 분포

☑️ 이항 분포

: 성공/실패와 같은 두 가지 결과를 가지는 실험을 여러 번 반복했을 때 성공 횟수의 분포

: 성공 확률을 p라 할 때, 성공의 횟수를 확률적으로 나타냄

☑️ 이항 분포 - 특징

: 데이터가 많아질수록 정규분포에 근사

: 실험 횟수(n)와 성공 확률(p)로 정의

☑️ 이항 분포 - 예시

: 결과가 2개만 나오는 상황을 여러번 하는 경우

: 동전 던지기 | 품질 관리

☑️ 실습

● 푸아송분포 = 희귀한 사건이 발생할 때

λ - 람다 - 발생률 : 특정 시간이나 특정 공간에서 발생하는 사건의 수

연속된 값을 가지지 않는 이산형 분포

☑️ 푸아송 분포

: 단위 시간 또는 단위 면적 당 발생하는 사건의 수를 모델링할 때 사용하는 분포

: 푸아송 분포는 평균 발생률 λ를 가진 사건이 주어진 시간 또는 공간 내에서 몇 번 발생하는지를 나타냄

☑️ 푸아송 분포 - 특징

: λ(람다)가 ∞(무한)으로 가면 정규분포를 띔

☑️ 푸아송 분포 - 예시

: 특정 공간 / 특정 시간에 사건이 발생하는 경우

: 콜센터 | 교통사고 | 문자메세지 | 웹사이트 트래

☑️ 실습

● 분포 정리하기

☑️ 데이터 수가 충분하다 → (무조건) 정규분포에 근사

☑️ 데이터 수가 작다 → 스튜던트 t 분포

☑️ 일부 데이터가 전체적으로 큰 영향을 미친다 → 롱 테일 분포 (파레토 분포)

☑️ 범주형 데이터의 독립성 검정이나 적합도 검정 → 카이 제곱 분포

☑️ 결과가 두 개(성공 or 실패)만 나오는 상황 → 이항 분포

☑️ 특정 시간, 공간에서 발생하는 사건 → 푸아송 분포

'내일배움캠프(QC,QA_5기)' 카테고리의 다른 글

[내일배움캠프_QA/QC 5기] 31일차 _ AI 리터러시 \| 기초 통계 4강, 5강, 6강 (1)	2026.04.20
[내일배움캠프_QA/QC 5기] 30일차 _ 베이직 문제 \| 기초 통계 3강 (2)	2026.04.17
[내일배움캠프_QA/QC 5기] 27일차 _ 통계라이브세션 / 머신러닝 ~1/10 (1)	2026.04.14
[내일배움캠프_QA/QC 5기] 26일차 _ 기초 통계 1강 / 머신 러닝 ~1/4 (1)	2026.04.13
[내일배움캠프_QA/QC 5기] 25일차 _ 데이터리터러시 (0)	2026.04.10

현재글[내일배움캠프_QA/QC 5기] 29일차 _ 기초 통계 2강

qc-standard 님의 블로그

qc-standard 님의 블로그 입니다.

Today :
Yesterday :

qc-standard 님의 블로그