현실적인 제약 - 비용과 시간 : 모집단 - 애초에 불가능하거나 비효율적 : 표본 조사 - 절약하면서도 유의미한 결과를 도출할 수 있는 방법 - 접근성 : 물리적으로 불가능한 경우 (ex - 생산되는 자동차의 성능 테스트)
대표성 - 표본의 대표성 : 잘 설계된 모집단의 특성을 반영 : 표본에서 얻은 결과를 모집단 전체의 일반화 : 무작위로 표본을 추출하면 편향을 최소화하고 모집단의 다양한 특성을 포함
데이터 관리 - 데이터 처리의 용이성 : 데이터 처리와 분석이 훨씬 용이 : 큰 데이터셋은 분석에 많은 컴퓨팅 자원 절약에 용이 - 데이터 품질 관리 : 작은 표본에서는 데이터 품질을 더 쉽게 관리 : 오류나 이상값을 식별하여 수정 가능
모델 검증 용이 - 모델 적합도 테스트 : 모델이 표본 데이터에 잘 맞는다면, 모집단에도 잘 맞을 가능성이 높음
☑️ 전수조사
: 모집단 전체 조사 : 대규모일 경우 비용과 시간의 많은 소요
☑️ 표본조사
:표본만을 조사하는 방법 : 비용과 시간이 적게 들지만,표본이 대표성을 가져야 함
☑️ 실제로 모든 데이터를 수집할 수 없을 때 표본 사용
: 도시 연구 | 의료 연구 | 시장조사 | 정치 여론 조사
☑️ 실습
numpy. random
○ Numpy 라이브러리의 일부 ○ 일반적인 정규분포 형태로 모집단 데이터 만들 수 있음 (정규분포 - 가운데 높고 가장자리가 낮은 분포형태) ○ random한 상황에서 쓰임
○ loc (float): 정규분포의 평균 (기본값: 0.0) ○scale (float): 정규분포의 표준편차 (기본값: 1.0) ○size (int 또는 tuple of ints): 출력 배열의 크기 = 데이터 개수 → loc(평균)scale(표준편차) 를 따로 입력하지 않으면 기본값으로 설정되어 표준정규분포
numpy.random.choice
○주어진 배열에서 임의로 샘플링하여 요소를 선택 =랜덤으로 무작위 추출
○a : 샘플링할 원본 배열 = 어디서 부터 가져올건지 ○size : 개수 복원 추출 : 중복된 값을 허용해주는 것 - 기본값 True = 중복되도 됨
plt.hist
○ 데이터 분포를 시각화하는데 유용한 도구 ○ bins : 구간을 몇개로 할지 ○alpha 투명도 ○label : 범례
○ 히스토그램 - population(모집단) 나타내고 ○ 히스토그램 - sample(표본) 나타내고
● 표본오차와 신뢰구간
☑️ 표본오차 (Sampling Error)
: 표본은 모집단에서 일부 추출된 것으로 표본과 모집단 사이 오차가 없을 수 없음,,, 그 오차가 표본오차 : 표본에서 계산된 통계량과 모집단의 진짜 값 간의 차이 : 표본 크기(=데이터 개수)가 클수록 표본 오차는 작아짐 - 표본의 크기(=데이터 개수) : 표본의 크기가 클수록 표본오차는 줄어듦 | 많은 데이터를 수집할수록 모집단을 더 잘 대표함 - 표본 추출 방법 : 무작위 추출 방법 사용하면 표본오차를 줄어듦 | 모집단 모든 요소가 선택될 동등한 기회를 가져야 함
☑️ 신뢰구간 (Confidence Interval)
:신뢰구간은 모집단의 특정 파라미터(예: 평균, 비율)에 대해 추정된 값이 포함될 것으로 기대되는 범위 <신뢰구간 계산 방법> - 신뢰구간=표본평균±z×표준오차 - z는 선택된 신뢰수준에 해당하는 z-값입니다. 예를 들어, 95% 신뢰수준의 z-값은 1.96입니다. - 일반적으로 95% 신뢰수준을 많이 사용합니다
☑️ 실습
○ 수학점수 표본으로부터 모집단의 평균 범위를 계산해보자 ○ 100명의 학생을 표본으로 추출하여 그들의 평균 수학 점수를 구하고, 이 점수의 신뢰구간을 계산
○ stats.t.interval란 무엇 : t-분포를 사용하여 신뢰 구간(confidence interval)을 계산하는 함수
○ alpha : 신뢰 수준 ○ df : 자유도(degrees of freedom)를 나타냅니다. 일반적으로 표본 크기(데이터 개수)에서 1을 뺀 값으로 설정 ○ loc : 위치(parameter of location)로, 일반적으로 표본 평균을 설정 ○scale : 스케일(parameter of scale)로, 일반적으로 표본 표준 오차(standard error)를 설정 :표본 표준 오차는 표본 표준편차를 표본 크기의 제곱근으로 나눈 값 : scale = sample_std / sqrt(n) : sample_std : 샘플의 표준편차 | sqrt(n) : 데이터 개수의 제곱근
● 정규분포 : 가장 대표적인 분포
빨간색 그래프 = 정규 분포 中 가장 표준적인 형태 = 분산 1, 평균 0 = 표준정규분포
μ - 뮤 - 평균 | σ² - 시그마 제곱 - 분산 | σ - 시그마 - 표준편차
☑️ 정규분포
: 종모양의 대칭 분포
: 대부분 데이터가 평균 주위에 몰려 있음
: 평균을 중심으로 좌우 대칭
: 평균에서 멀어질수록 데이터의 빈도가 감소
: 표준 편차는 분포의 퍼짐 정도
☑️ 정규분포 - 특징
: 대부분의 데이터가 평균 주변에 몰려 있으며, 평균에서 멀어질수록 빈도가 줄어듦
☑️ 정규분포 - 예시
: 대부분의 상황에서 관찰되는 분포 : 키와 몸무게 | 시험 점수(큰집단 경우) | 대부분의 상황에 가능 - 데이터 수가 많을 때
☑️ 실습
표본 데이터가 정규분포를 띈다면 모집단도 정규분포를 띌 수 있음
●긴 꼬리 분포 (long tail distribution)
일부가 전체에 큰 영향을 미칠 때
☑️ 긴 꼬리 분포
: 긴 꼬리 분포는 대부분의 데이터가 분포의 한쪽 끝에 몰려 있고, 반대쪽으로 긴 꼬리가 이어지는 형태의 분포
: 대칭적이지 않음 = 비대칭적
: 파레토분포, 지프의 법칙 멱함수가 포함
☑️ 긴 꼬리 분포 - 특징, 예시
: 일부가 전체적으로 큰 영향을 미치는 경우
: 소득분포 | 온라인 쇼핑 | 도서 판매
: 아무리 데이터가 많아져도 정규분포 되지 않음
☑️ 실습
●스튜던트 t 분포 = 표본이 적을 때 정규분포 대신 사용
검은색 ν(자유도)가 무한에 가까워진 상태
자유도 ≒ 데이터 개수랑 관련 있는 값
☑️ 스튜던트 t 분포
: t분포는 모집단의 표준편차를 알 수 없고 표본의 크기가 작은 경우(일반적으로 30미만)에 사용되는 분포
: 표본의 크기가 작을수록 꼬리가 두꺼워지는 특징
☑️ 스튜던트 t 분포- 특징
: 표본 크기(데이터 개수)가 커지면 정규 분포에 가까워짐
☑️ 스튜던트 t 분포 - 예시
: 데이터가 적은 경우 사용
:작은 표본의 평균 비교 | 약물 시험
☑️ 실습
●카이제곱분포 = 독립성 검정 / 적합도 검정에 사용
대표적 검은색 | k 자유도=데이터 표본=데이터 개수
☑️ 카이제곱 분포
: 카이제곱분포는 범주형 데이터의 독립성 검정이나 적합도 검정에 사용되는 분포
☑️ 카이제곱 분포 - 특징
: 자유도에 따라 모양이 달라짐
: 데이터 수가 많아질수록 정규분포에 근사할 수 있음
: 상관관계나 인과관계를 판별하고자 하는 원인의 독립변수가 ‘완벽하게 서로 다른 질적 자료’일 때 활용 - ex) 성별이나 나이에 따른 선거 후보 지지율
: 범주형 데이터 분석에 사용
☑️ 카이제곱 분포 - 예시
: 독립성 검정이나 적합도 검정이 필요할 때
: 독립성 검정 - 두 범주형 간의 관계가 있는지 - 숫자형에서는 상관관계
: 적합도 검정
☑️ 실습
●이항분포 = 결과가 2개 나오는 상황에서 사용
특정한 정수값만 가질 수 있어서 연속형 분포가 아닌 이산형 분포
☑️ 이항 분포
: 성공/실패와 같은 두 가지 결과를 가지는 실험을 여러 번 반복했을 때 성공 횟수의 분포
: 성공 확률을 p라 할 때, 성공의 횟수를 확률적으로 나타냄
☑️ 이항 분포 - 특징
: 데이터가 많아질수록 정규분포에 근사
: 실험 횟수(n)와 성공 확률(p)로 정의
☑️ 이항 분포 - 예시
: 결과가 2개만 나오는 상황을 여러번 하는 경우
: 동전 던지기 | 품질 관리
☑️ 실습
● 푸아송분포 = 희귀한 사건이 발생할 때
λ - 람다 - 발생률 : 특정 시간이나 특정 공간에서 발생하는 사건의 수
연속된 값을 가지지 않는 이산형 분포
☑️ 푸아송 분포
: 단위 시간 또는 단위 면적 당 발생하는 사건의 수를 모델링할 때 사용하는 분포
: 푸아송 분포는 평균 발생률 λ를 가진 사건이 주어진 시간 또는 공간 내에서 몇 번 발생하는지를 나타냄