- 실제 본격적 데이터 분석에 앞서 데이터를 살펴보는 과정
- 주어진 데이터에 대한 감 잡기
포함하는 것
- 데이터 분포 평균, 분산, 중간값, 단변량 이변량 여부
- 시각화
- 데이터 변형
- 이상치 탐색
- 결측치 처리
- 통계 분석
데이터 종류
- 정형 데이터
- 일반적인 숫자, 범주 데이터
- 행렬 형태로 표현 용이
- 각 변수는 고유 의미가 명확
- 통계, 기계학습, 딥러닝으로 분석
- 비정형 데이터
- 정형이 아닌 다른 모든 데이터 (음성, 이미지, 텍스트 등)
- 정형으로 변환해서 사용
- 각 변수의 의미를 찾기 어려움
- 주로 딥러닝으로 분석
데이터의 차원. 즉 변수의 수가 많으면 분석이 매우 어려움
수치형 데이터
- 데이터가 숫자로 되어 있음
연속형 데이터
모든 실수값이 가능한 연속 실수
이산형 데이터
이산적인 변수 값만 가능
범주형 데이터
- 데이터가 범주로 되어있음. 클래스, 팩터
명목형 데이터
순서가 없음. 성별, 지역,
순서형 데이터
순서가 있음. 상중하, 등급제
데이터 요약
대표값
평균 Mean
중간값, 중앙값 Median
가운데 있는 값. 짝수개면 가운데 두 개의 평균
최빈값 Mode
가장 많이 나타나는 값
분포 표현
분산 Variance, 표준편차 Standard Deviation
Max, Min
최대값 최소값
백분위수 Percentile
크기 순서로 값들을 세웠을 때 하위 N%에 해당하는 값을 N% Percentile 이라 함
이변량 데이터의 경우
변수와 변수 사이의 관계가 중요
-
산점도 : 두 변수의 값을 2차원 좌표 상에 점으로 표현
-
추세선 : 두 변수 사이의 관계를 선의 형태로 표현
-
공분산 : Covariance
-
상관계수 : Correlation
-
공분산은 달라도 상관계수가 같을 수 있음
-
공분산은 스케일의 영향을 받지만, 상관계수는 그렇지 않음
-
승수비 : Odd Ratio. 1에 가까울수록 관련없고, 멀어질수록 관련이 높음
-
이변량 데이터 요약
| 수치형 시각화 | 범주형 시각화 | |
|---|---|---|
| 수치형 데이터 | 산점도, 상관계수 | 박스플롯, SMD |
| 범주형 데이터 | 박스플롯, SMD | 모자이크 플롯, Odd Ratio |