실제 본격적 데이터 분석에 앞서 데이터를 살펴보는 과정
주어진 데이터에 대한 감 잡기

포함하는 것

데이터 분포 평균, 분산, 중간값, 단변량 이변량 여부
시각화
데이터 변형
이상치 탐색
결측치 처리
통계 분석

데이터 종류

정형 데이터

일반적인 숫자, 범주 데이터
행렬 형태로 표현 용이
각 변수는 고유 의미가 명확
통계, 기계학습, 딥러닝으로 분석

비정형 데이터
- 정형이 아닌 다른 모든 데이터 (음성, 이미지, 텍스트 등)
- 정형으로 변환해서 사용
- 각 변수의 의미를 찾기 어려움
- 주로 딥러닝으로 분석

데이터의 차원. 즉 변수의 수가 많으면 분석이 매우 어려움

수치형 데이터

데이터가 숫자로 되어 있음

연속형 데이터

모든 실수값이 가능한 연속 실수

이산형 데이터

이산적인 변수 값만 가능

범주형 데이터

데이터가 범주로 되어있음. 클래스, 팩터

명목형 데이터

순서가 없음. 성별, 지역,

순서형 데이터

순서가 있음. 상중하, 등급제

데이터 요약

대표값

평균 Mean

중간값, 중앙값 Median

가운데 있는 값. 짝수개면 가운데 두 개의 평균

최빈값 Mode

가장 많이 나타나는 값

분포 표현

분산 Variance, 표준편차 Standard Deviation

Max, Min

최대값 최소값

백분위수 Percentile

크기 순서로 값들을 세웠을 때 하위 N%에 해당하는 값을 N% Percentile 이라 함

이변량 데이터의 경우

변수와 변수 사이의 관계가 중요

산점도 : 두 변수의 값을 2차원 좌표 상에 점으로 표현
추세선 : 두 변수 사이의 관계를 선의 형태로 표현
공분산 : Covariance
상관계수 : Correlation
공분산은 달라도 상관계수가 같을 수 있음
공분산은 스케일의 영향을 받지만, 상관계수는 그렇지 않음
승수비 : Odd Ratio. 1에 가까울수록 관련없고, 멀어질수록 관련이 높음
이변량 데이터 요약

	수치형 시각화	범주형 시각화
수치형 데이터	산점도, 상관계수	박스플롯, SMD
범주형 데이터	박스플롯, SMD	모자이크 플롯, Odd Ratio

RicePunchb's Garden

탐색기

탐색적 데이터 분석