2026/03/25 Wed.
코드카타 3문제 ( https://qc-standard.tistory.com/25 )데이터 전처리&시각화 1강데이터 전처리&시각화 2강TIL
⊙ 데이터 전처리 & 시각화 1강
데이터 분석가란?
● 비즈니스 분석가
: 비즈니스 관점
: 주로 비즈니스 문제를 이해하고 해결하기 위해 데이터를 분석
: 비즈니스 프로세스 및 요구 사항을 파악하고, 데이터 기반으로 의사 결정을 지원
: 주로 업무 프로세스 개선, 비즈니스 모델 분석, 요구 사항 관리 등을 수행
● 프로덕트 분석가
: 유저, 제품 관점
: 제품이나 서비스의 성과를 평가하고 개선하기 위해 데이터를 분석
: 사용자 행동 및 제품 성능과 관련된 데이터를 분석하여 제품 개선에 기여
: 주로 제품 경험과 사용자 행동에 대한 분석을 수행하며, A/B 테스트, 사용자 경로 분석 등을 담당
● BI 분석가 = Business Intellingence 분석가 (비즈니스 정보 분석)
: 데이터 베이스, 엔지니어링, 대시보드 툴 적극적 활용하여 데이터 인프라 구축에 기여하는
: 기업의 비즈니스 인텔리전스 플랫폼과 도구를 사용하여 데이터를 시각화하고 보고서를 작성
: 주로 기업 내부 데이터를 시각화하고, 이를 통해 의사 결정에 필요한 정보를 제공
: BI 도구 (Tableau, Power BI 등)를 사용하여 대시보드를 구축하고, 데이터 시각화 및 보고서 작성을 담당
개인적으로 궁금해서 찾아본 BI 분석가 VS 비즈니스 분석가 뭐가 다른가?
| BI 분석가 | 비즈니스 분석가 | |
| 공통점 | 데이터 분석을 통해 데이터 기반 의사 결정을 돕는 분석가 |
|
| 차이점 키워드 | - 과거·현재 데이터 분석 - 시각화 - 무엇이 일어났는지(설명적 분석) - What에 집중 |
- 통계·모델링 분석 - 왜 일어났는지 - 앞으로 어떻게 될지에 대한 분석 → 실행 가능한 인사이트 도출 - Why에 집중 - 미래 예측 분석 |
| 주요 목적 | - 데이터 시각화 - 표준 KPI 기반 성과 모니터링 - 보고서 작성 |
- 데이터 원인 진단 - 미래 트렌드 예측 - 비즈니스 프로세스 개선 제안 |
| 분석 대상 | - 과거 & 현재 데이터 | - 과거, 현재를 포함한 미래 예측 가능 데이터 |
| 핵심 스킬? | - SQL / 데이터 시각화 툴 | - 도메인 지식 / 통계 분석 / 요구사항 분석 |
| 보고 대상 | - 경영진 및 협업 부서 | - 전략 기획팀 및 의사결정권자 |
● 데이터 분석가
: 가장 보편적으로 알고 있는 분석가의 형태
: 주로 정형 데이터(표 형태로 정제되어 있는 데이터)를 분석하여 기업의 의사 결정을 지원
: 데이터베이스(DB), 스프레드시트 등에서 데이터를 추출하고, 데이터를 정제하여 보고서 및 시각화를 생성
: 주로 기술적인 기술이 필요하며, SQL, Excel, 데이터 시각화 등을 활용하여 업무를 수행
● 데이터 사이언티스트
: ai 머신러닝 딥러닝을 다루는
: 주로 데이터를 활용하여 예측, 패턴 발견, 복잡한 분석을 수행하여 비즈니스 문제를 해결
: 통계, 머신러닝, 딥러닝 등의 기술과 알고리즘을 사용하여 데이터를 분석하고 모델을 구축
: 데이터 수집, 전처리, 모델링, 평가 및 해석을 포함한 end-to-end 데이터 분석 작업을 수행
숙제) 어떤 유형의 데이터 분석가가 되고 싶은가??
원하는 도메인 : 제약회사, 화장품회사 품질관리
원하는 도메인의 직무기술서에 따르면 "데이터 분석가 - BI 분석가 / 프로덕트 분석가"에 가깝다고 할 수 있다
약이 만들어지는 공정 과정에서 얻은 데이터를 정제하여
현재 공정 과정에서 문제점을 찾고 원인 파악 후 개선, 조치 및 예방 조치 - BI 분석가
완제품에 대한 유효성 팔로우 / 완제품 외관 결함 등 팔로우를 통한 제품 개선에 기여 - 프로덕트 분석가
BI 분석가 또는 프로덕트 분석가가 되고 싶다
데이터의 목적은 무엇일까?
● 설득
● 설득을 위해 데이터를 가장 잘 전달할 수 있는 방법 '시각화'
● 시각화를 위한 목적에 맞는 데이터 전처리 필요 → 데이터를 통해 무엇을 해야할지? 얻어야할지? 고민해야 함
⊙ 데이터 전처리 & 시각화 2강
데이터 전처리
● 내가 원하는 데이터를 보기 위한 모든 활동
why 전처리를 해야하는가?
● column 내 다양한 값이 불규칙하게 되어 있음
● 원하는 데이터를 간편하게 뽑아 쓰기 쉽게 다양한 값을 일정한 규칙으로 변환하는 것
→ ex) 도서관에서 분야(=목적)별로 나누고 가나다순+특정 숫자부여(=일정한 규칙)으로 되어 있어 책을 쉽게 찾을 수 있다
● 열(column) 행(row)
How 전처리를 해야하는가?
● 데이터 전달의 목적성 - 무엇을 확인할 것인지? 어떤 의사결정을 위해 필요한지?
● 데이터 전달의 효과성 - 의사결정에 도움이 될 수 있게
| 정형 데이터 | - 열과 행이 명확하게 존재하는 데이터 - ex) excel |
| 비정형 데이터 | - 이미지, 목소리 등 다양한 형태의 데이터 |
| 열 (column) | |
| 행 (row) |
Excel VS Pandas
● 1. 자동화와 프로그래밍 기능
: 코드를 활용해 데이터 수집
: 처리하는 과정을 코드로 자동화
: 프로그래밍을 통해 데이터 처리하는데 활용
● 2. 대용량 데이터 처리
: excel의 경우 만 건 이상의 데이터를 열고, 수정, 활용하는데 로드 시간이 길어지는데
: pandas는 만 건 이상도 빠르게 처리 가능
● 3. 복잡한 데이터 처리 및 분석
: excel 여러개 컬럼 처리 할 때, 함수를 몇 가지 섞어 쓰면 복잡해지고 어디에 어느 함수를 썼는지 추적해야 함
: 복잡한 함수가 아닌 코드 한줄로 가능
● 4. 확장성과 유연성
: excel 하나의 파일을 사용해 데이터 가공 및 활용
: 다양한 데이터 활용, DB와도 연동 가능 데이터 유연하게 관리
● 5. 버전 관리
: 히스토리 관리에 용이함
Pandas?
● 데이터 구조

- 시리즈 (Series) : 1차원 배열의 형태 = 컬럼(열)이 하나있는 형태
- 데이터 프레임 (Data Frame) : 2차원 배열의 형태 = 컬럼이 2개 이상있는 형태
- 인덱스(index = 행) : 데이터 각 항목을 식별 할 수 있도록 도와주는 일종의 목록 - 각 행에으로 되어 있고 특정 정보를
- 데이터(Values)
'내일배움캠프(QC,QA_5기)' 카테고리의 다른 글
| [내일배움캠프_QA/QC 5기] 17일차 _ 데이터 전처리&시각화 3강 (0) | 2026.03.31 |
|---|---|
| [내일배움캠프_QA/QC 5기] 14일차 (0) | 2026.03.26 |
| [내일배움캠프_QA/QC 5기] 12일차 _ 파이썬 5강 (0) | 2026.03.24 |
| [내일배움캠프_QA/QC 5기] 11일차 _ 파이썬 4강 (0) | 2026.03.23 |
| [내일배움캠프 _ QA/QC 5기] 9일차 _ 파이썬 3강 (0) | 2026.03.19 |