○ 영업실적 필드 : 년도는 다르지만 '필드 명, 필드 타입'이 동일할 것임으로 Union
○ 다른 영업실적은 Union이 아닌 추가
▷ Union 된 상태
○ Union 확인하기 ○ 불일치 필드 : Prep으로 간단하게 병합 가능
○ 수익 = 이익 같은 말 ○ 수익 누르면 비슷한 필드 추천
○ + 누르면 합쳐짐
○ 드래그 앤 드랍으로도 병합 가능
○ 불일치 해결 후 결과 피드 = Union 잘 됨
● 데이터 조인
○ '영업 실적' 과 '지역별 관리자'는 다른 데이터로 key를 기준으로 수평 결합 = Join
○ 기본적으로 교집합 'inner join' ○ Left / Right로 바꾸고 싶으면 해당 영역 선택 Full outer join : 합집합 여집합도 가능
○ join이 되지 않은 개수 : 1,832
○ "조인 절" join 되지 않은 이유를 나타내는 탭 ○ Union에는 서울/경기, 수도권 | join 해야하는 지역별 관리자에는 수도권으로 필드명 상이 함
○ 더블 클릭하면 이름을 바꿀 수 있음 → 수도권으로 바꿔 줌계산된 필드 만들기
○ 일치
○ Join 되지 않은 것 없음
○ 단계상 전처리 진행 = 원본 영향 없음
● 데이터 조인 2
○ 조인 유형 바꾸기 예제
● 데이터 정리
○ 정리 단계 : 값 변경 / 필드 위치 수정 → 다양한 기능 수행 ○ 필요없는 필드 삭제 가능
○ 필요없는 컬럼 제거
○ Join으로 인한 중복 필드 제거
○ 사이먼 해당 값들만 볼 수 있음
○ 마우스 오버 = 커서를 가까이 대는 것
○ 드래그 앤 드롭 - 필드 순서 바꾸기
● 데이터 출력
○ 정리까지 된 파일 추출
○ 게시된 데이터 원본 : 태블로 클라우드 또는 태블로 서버 원본을 게시하는
○ hyper : 태블로 전용 데이터 파일
○ 흐름 실행 마침 = 전처리한 데이터 저장 완료 ○ 태블로 데스크탑에서 시각화 진행 가능
● 4-2 Tableau 작업 순서와 라이브 VS 추출
☑️ 라이브 VS 추출
라이브(Live) : 데이터베이스와 실시간 연결을 유지하며 쿼리를 즉시 실행 : 대시보드에서 필터나 계산을 변경할 때마다 원본 데이터베이스에 직접 질의 → Excel 안에서 값 추가나 변환이 있을 때 새로고침 누르면 대시보드 상에 반영 : 항상 최신 데이터 조회 가능 : 원본 DB의 성능과 네트워크 상태에 크게 의존 - DB 성능이 좋지 않으면 대시보드가 느려질 수 있음 : 데이터 양이 많거나 복잡한 쿼리 시 속도 저하 가능 : 별도 파일 생성 없음 (저장 공간 차지 X) : 추출과 비교시 속도는 조금 느리지만 최신 데이터 조회 및 데이터 복사X일 때 연결 추천
추출(Extract) : 원본 데이터 일부 또는 전체를 Hyper 파일로 추출하여 로컬 또는 Tableau Cloud/Server에 저장 : 추출된 데이터로 분석하므로 원본 DB와 실시간 연결 끊김 → 원본 DB의 일부를 스냅샷처럼 현 상태를 복사한 상태로 연결 : 쿼리 속도 빠름 (인메모리 엔진 사용) : 데이터 양 많아도 성능 안정적 : 일정 주기(스케줄링)로만 새로고침 필요 → 실시간성 낮음 : Hyper 파일 저장 공간 필요
비교
선택기준
● 라이브
● 추출
● 실시간 데이터 모니터링 필요시 주로 사용 ● 원본 DB 성능과 네트워크 환경이 안정적일 때
● 데이터 크기가 크거나 복잡해 성능이 중요한 경우 ● 오프라인 분석 또는 대시보드 속도 최적화 필요할 때 ● 데이터가 일정 주기(하루 1회 등)로만 갱신될 때
● 태블로 퍼블릭 게시 시, '데이터 추출'로만 게시 가능 - 데이터 원본을 라이브로 연결하는 것 지원 X
데이터 추출 필터 (Extract Filters) : 적용 시점 - 데이터 추출(.hyper) 단계에서 불필요한 데이터 제거 : 특징 - 데이터 원본에서 아예 제외되므로 추출 파일 크기와 성능 최적화에 효과적
: 증분 새로고침 - 추출된 데이터를 새로고침하는 과정에서 기존 데이터를 유지하고 날짜/ID 기준으로 새로고침할 최소 날짜 범위는 얼마일지 설정하고 기존 데이터 유지하고 새로고침하는 데이터들만 추가할때 사용하는 기능 : 새로운 행 추가에는 적합하지만, 기존 데이터가 수정, 삭제되는 경우 반영되지 않음 → 반드시 전체 새로고침을 주기적으로 병행해야 함
데이터 원본 필터 (Data Source Filter) : 적용 시점 - 추출 이후, 데이터 소스 전체에 걸쳐 필터링 : 특징 - 보안 목적(사용자별 행 제한)이나 대시보드 전체에서 공통으로 적용되는 필터에 사용
△ 추출 필터 & 데이터 원본 필터 : 데이터 원본 탭에서 적용△
▽ 컨텍스트 & 차원 & 측정값 & 테이블 계산 필터 : 워크시트 탭에서 적용 ▽
컨텍스트 필터 (Context Filters) : 적용 시점 - 다른 필터보다 먼저 적용되어 기준(Context)으로 사용됨 → 차원 필터, 측정값 필터보다 우선 돼서 사용
○ 매출 Top 10을 설정했지만 10개가 안나오는 곳이 많음 '시도' 필터 vs '제품명' 필터가 상충했을 때 '제품명'에 있는 Top N 필터가 먼저 작동해서 '제품명'에 대해 10개만 먼저 필터링 후 '시도'필터 적용 제품명에 대 경상북도 + 매출 top 10 + 제품명 필터 적용 → 8개 나옴
○ '시도' 필터 먼저 적용하려면 → 컨텍스트에 추가
○ 4개 나오던 대전광역시 → 10개 나옴
○ 8개 나오던 경상북도 → 10개 나옴
● Fixed 함수와 차원 필터 같이 쓸 때
○ Fixed 값이 우선 적용 돼 바뀌지 않음
○ '고객 세그먼트' 컨택스트 추가 → 값 바뀜
차원필터 (Dimension Filters) : 적용 시점 - 차원(Dimension) 값에 대한 필터링 : 특징
INCLUDE/EXCLUDE LOD 계산과 데이터 블렌딩(blending)에도 영향
카테고리, 지역 등 불연속형 필드의 필터링 단계
측정값 필터 (Measure Filters) : 적용 시점 - 집계된 측정값(Measure) 결과를 기반으로 필터링 : 특징
집계 후의 값에 조건(예: 매출 > 1000)을 걸 때 사용
차원 필터보다 나중에 계산되므로 결과 값에 따라 범위가 달라질 수 있음
테이블 계산 필터 (Table Calculation Filters) : 적용 시점 - 뷰(View)에서 테이블 계산이 끝난 후 마지막으로 필터링 : 특징
○ 하버드 비즈니스 리뷰에 따르면데이터 분석 중전체 업무의80%를 데이터 전처리에 사용한다고 함. ‘전처리를 하면서 데이터 분석을 할 수 없을까’하는 생각에서 착안해 만든 도구"Tableau Prep" ○ Tableau Prep = 데이터 준비 도구 ○사용자가 직관적으로 이해할 수 있도록 시각적인 인터페이스를 갖추고 있으며, 데이터 연결 → 정제 → 통합 과정을 드래그 앤 드롭 방식으로 수행할 수 있음 ○결합 (Combine) : 서로 다른 데이터 소스를 조인(Join) 또는 유니온(Union) ○정리 (Clean) : 데이터 안의 불필요하거나 불일치하는 값을 정제 ○변형 (Shape) : 분석 목적에 맞게 피벗(Pivot), 집계(Aggregate), 필터(Filter) 등을 수행
☑️ 왜 전처리를 해야하나?
= 왜 전처리를 해야하지? 뭘 전처리 해야하지? 전처리의 완료의 기준이 뭐지?
"Tidy DATA = 정돈된 데이터" ○ 데이터셋의 의미를 구조를 기준으로 대응(맵핑)하는 표준적인 방법 ○ 데이터 '내용'과 '모양'을 일치시켜 누구나 직관적으로 이해하고 분석하기 쉽게 만드는 것이 핵심 ○ 3원칙
○각 변수(variable)는 하나의 열(column)을 형성 -예: 이름, 색상, 아이디 등 데이터의 종류는 세로 줄로 나열
○각 관측치(observation)는 하나의 행(row)을 형성 -예: 데이터 하나하나의 개별 정보는 가로 줄로 나열
○각 셀(cell)은 하나의 단일 측정값(single measurement)을 담아야 함 -예: 표의 칸 하나에는 오직 하나의 데이터 값만 들어가야 함
▶ "한 열에는 한 종류의 정보만, 한 행에는 한 건의 데이터만, 한 칸에는 하나의 값만!" 넣는 것이 바로 Tidy Data의 핵심
○ 이후는 유니온이 아닌 추가 "1개 상자에 계속 담느냐 vs 상자를 풀고 다시 넣고 풀고 다시 넣고" 차이
● 유니온 불일치 해결
○ Productivity = 생산력 '+'로 합치기
" 전처리 결과는 원본 데이터에 영향을 미치지 않는다 "
● 조인 결합
● 조인 전처리 - 복수 필드 정리
○ . 기준 처음 1개 필드만 가져와
● 전처리 파일 저장
⊙태블로 강의 5강
● 5-1 대시보드
☑️ 대시보드?
대시보드(Dashboard)는원래 자동차나 비행기 운전석 앞에 있는 계기판에서 비롯된 용어 :자동차의 상태를 계기판을 통해 한눈에 알 수 있음→ 자통차상태를 한 눈에 알고 즉각적인 판단을 내릴 수 있도록 돕는 역할
비즈니스 인텔리전스(BI) 분야에 적용되면서,대시보드란 다양한 데이터와 정보를 시각적으로 구성하여 하나의 화면에 통합적으로 제시하는 도구를 의미하게 됨
즉, 기업의 의사결정자가 여러 지표와 데이터를 직관적으로 확인하고 빠르게 분석할 수 있도록 돕는 시각화된 정보 관리 패널
▶ 너무 많은 정보를 담으면 사용자에게 혼란 야기 = 목적에 맞게 설계!!
☑️ 대시보드 목적
"문제 정의"가 핵심
누가보는가?
보는시점은 언제인가? (ex 업무보고, 모니터링, 미팅 등)
얼마나피곤한가?
얼마나자주보는가?
그 동료랑 얼마나자주 소통하는가?
내용을 어디까지 공유하는가?
공유할 수 있는 데이터는 무엇이고,공유할 수 없는데이터는 무엇인가?
▶우선순위, 대시보드 기능의 개발 순서, 콘텐츠 레이블링이 달라짐
○ 전략 대시보드
목적: 경영진이 장기적목표 달성 현황과 KPI를 모니터링하고, 조직의 전략적 방향 설정 및 성과 평가에 사용
특징: 고위 경영진이 주요 지표를 한눈에 파악할 수 있도록단순하고 직관적인 시각화 중심, 정보는 주로 집계 데이터 기반, 실시간보다장기적 추세를 중요시 :해당 기간 내 발생한 데이터를간단히, 축약해서 간단하게 볼 수 있는 대시보드
사용 예시: 회사의 연간 매출 성장률, 시장 점유율, 부서별 목표 달성률 등
○ 분석 대시보드
목적: 방대한 과거 데이터를 심층적으로분석하여 인사이트 도출,복잡한 원인 분석 및 패턴 탐색을 지원
특징: 데이터 드릴다운·필터링 가능,추세분석·원인분석 강조, 정의된 지표 외 다양한 데이터 탐색과 비교 가능 :전략 대시보드보다 기능이 많음
사용 예시: 마케팅 캠페인 효과 분석, 고객 행동 패턴 심층 분석, 판매 실적의 변동 원인 탐색 등
○ 운영 대시보드
목적: 실무 및 중간 관리자들이 일상적인 업무와 프로세스 상태를실시간으로 모니터링하고, 신속하게 문제를 파악하고 대응
특징: 실시간 데이터와알림, 세부 지표강조, 사용자·팀·프로세스별 세부 관리가 가능하도록 설계
사용 예시: 생산 현장의 설비 가동 현황, 실시간 콜센터 응답률, 당일 출하/주문 처리 현황 등
☑️ 산업군별 대시보드 사용 예시
○ 마케팅
○ 제조
○ HR
○ 전사 매출 현황 - 핵심 지표들의 트리 계층 구조 파악 ○ 광고 비용 ○ 트래픽 분석 ○ 이메일 마케팅 모니터링
○ 장비 현황 모니터링 - Hexa map | ○ 공정 흐름 모니터링 ○ 공정-위치-사이즈별 불량을 나타내는 히트맵 - 시계열 트랜드 확인 가능 ○ 센서 결과 모니터링
○ 인력맵 - 직무벼 분포, 연령대별 분포 등 ○ 조직 단위 - 도넛 파이 ○ 업무 현황 - 도넛 파이 ○ 개인 프로파일
● 5-2 대시보드 화면 구성 및 디자인
☑️ 대시보드 화면 구성
Business Question 던지기 : 어떤 제품이 가장 높은 매출을 기록하고 있는가? : 시간 추이에 다른 매출 패턴은 어떻게 변하는가? : 등 :대시보드를 통해서 확인하고자 하는 Business Question이 무엇인지 정하고 그 질문에 답변할 수 있는 대시보드 생성이 중요
"프로젝트 관리를 위한 대시보드를 설계해줘. 대시보드에는 주요 프로젝트 목록, 진행 상태(예: 진행중, 완료, 보류), 마감일, 담당자, 그리고 미션별 남은 일정(days left)을 포함해줘. 각 항목은 표 형태로 정리하고, 상태별 통계 차트와 월별 완료 프로젝트 그래프를 추가해줘. 전체적으로 직관적이고 한눈에 현황을 파악할 수 있게 레이아웃을 구성해줘.”
☑️ 대시보드 디자인
계층 :정보를 계층화하고 계층화된 레벨에 따라 사이즈와 비중을 결정 : ex) 책 - 큰 글씨→작은 글씨 | 위→아래 | 오른쪽→왼쪽 으로 읽으니 이를 고려해KPI 지표는 좌측 상단에 많이 배치
단순성 :복잡한 정보를단순하고 이해하기 쉬운 형태로제공 :대략 6개 항목이 적당
일관성 :일관적인 레이아웃을 사용할 때 대시보드가 더욱 보기 좋다
근접성 :유사한 정보들을 근접한 위치에 배치하는 것은 사용자들이 내용을 더 빠르게 이해하는데 도움을 준다 : ex) 표 | 가로 막대 | 파이 차트 등을 묶어 놓는 것 -시각적으로 유사한 차트들끼리 묶어서 배치 :유사한 정보들끼리 묶어야 사용자가 보기 좋음
정렬 :대시보드의 엘리먼트들은 시각적으로 균형감을 주도록 정렬한다.
여백 :사용자들에게 잠시 쉬어가는 공간을 제공해 준다.
색상 :사용자들의주목을 잡을 수 있도록효과적인 컬러 스키마를 사용한다 :대략 3가지 색상 사용 | 메인 key 컬러 사용, 상승-빨강, 하강-파랑
폰트 :표준 폰트들을 사용하는 것이 특수한 경우가 아니고서는 가장 나은 선택일 수 있다. : 표준 폰트 사용
숫자형식 :숫자를 너무 많은 양의 형식으로 제공하면 사용자에게 혼란을 야기할 수 있다. : 숫자 축약
레이블 :레이블을 사용하여 사용자들이 정보를 보다 쉽고 효과적으로 이해할 수 있도록 한다. : 축약 또는 생략해서 표시하는 것이 좋음