EDA / 탐색적 데이터 분석
– 전체 분석 전, 통계 및 시각화를 통해 데이터를 이해하는 단계
– 데이터가 어떤 형태를 갖고 있고 어떤 가치를 갖고 있는지 알아본다.
데이터의 종류와 목적에 따라 적절한 방법을 사용해야 합니다.
EDA 유형
심상 (그래픽) : 도표, 이미지 등으로 데이터 확인
→ 데이터를 한눈에 파악하여 대략적인 형태 파악 가능
비가시화 (그래픽 아님) : 그래픽 요소를 사용하지 않고, 주로 요약 통계을 통해 데이터 유효성 검사
→ 정확한 값을 아는 것이 좋다
* 요약 통계: 요약 통계(예: 평균, 표준편차, 분산…)
데이터 형식
숫자 데이터 (수치 데이터) : 숫자 대표변수
범주형 데이터 (범주 데이터): 기호나 이름으로 식별할 수 있는 변수. 산수/논리 연산을 적용할 수 없습니다..
예) 이용목적 : 빈도, 히스토그램
EDA 타겟
낮변화 (일변량) : 에다이해하고 싶은 변수 하나개
→ 목표는 데이터를 설명하고 데이터에서 패턴을 찾는 것입니다.
→ 그 특성을 결정하기 위해 한 측면에서 개체를 관찰하고 분석하는 데 사용됩니다.
다변량 (다변량) : 에다이해하고 싶은 몇 가지 변수가 있습니다.
→ 목적은 여러 변수 간의 관계를 보는 것입니다.
→ 여러 각도와 측면에서 변수의 관계를 분석하는 데 유용합니다.
EDA 유형
일변량 비가시화 (유니논그래픽)
→ 데이터를 설명하고 그 안에서 패턴을 찾는 것입니다. 주목적
→ 분석할 데이터가 하나의 변수로 구성되는 가장 간단한 형태의 데이터 분석
예) 요약통계 요약 통계 (전. 평균, 표준 편차, 산란 …)
일변량 심상 (유니 그래픽)
→ 주 목적은 데이터를 전체적으로 보는 것입니다.
이자형x) 히스토그램; 박스 플롯

다변량 비가시화 (무티 논 그래픽)
→ 주 목적은 둘 이상의 주어진 변수 사이의 관계를 확인하는 것입니다.
예) 크로스탭 크로스 테이블, 상관관계 상관 분석
다변량 심상 (무티 그래픽)
→ 두 개 이상의 주어진 변수 사이의 관계를 전체적으로 연구하는 것이 주된 목적
예) 산점도 산포도

EDA 과정
하나.데이터에 대한 총체적 관점 확보
2. 데이터의 개별 속성 값 참고
삼. 속성 간의 관계 분석
–상관계수에 의한 상관관계 확인