(데이터 분석) EDA의 탐색적 데이터 분석

EDA / 탐색적 데이터 분석

– 전체 분석 전, 통계 및 시각화를 통해 데이터를 이해하는 단계

– 데이터가 어떤 형태를 갖고 있고 어떤 가치를 갖고 있는지 알아본다.

데이터의 종류와 목적에 따라 적절한 방법을 사용해야 합니다.

EDA 유형

심상 (그래픽) : 도표, 이미지 등으로 데이터 확인

→ 데이터를 한눈에 파악하여 대략적인 형태 파악 가능

비가시화 (그래픽 아님) : 그래픽 요소를 사용하지 않고, 주로 요약 통계을 통해 데이터 유효성 검사

→ 정확한 값을 아는 것이 좋다

* 요약 통계: 요약 통계(예: 평균, 표준편차, 분산…)

데이터 형식

숫자 데이터 (수치 데이터) : 숫자 대표변수

지속적으로 지속적으로: 연속 값이 있는 데이터 (전. 단추, 무게)
신중한 콘크리트: 불연속 값이 있는 데이터 (전. 자동차 사고의 수, 자녀의 수)
ex) 사용목적 : 평균, 분산, 표준편차

범주형 데이터 (범주 데이터): 기호나 이름으로 식별할 수 있는 변수. 산수/논리 연산을 적용할 수 없습니다..

잇달아 일어나는 서수: 범주 사이의 순서로 의미가 있는 데이터 (전. 선호, 평가)
명목상 N불명확한: 범주 간 순서에서 중요하지 않은 데이터 (예: MBTI, 성별)

예) 이용목적 : 빈도, 히스토그램

EDA 타겟

변화 (일변량) : 에다이해하고 싶은 변수 하나
→ 목표는 데이터를 설명하고 데이터에서 패턴을 찾는 것입니다.

그 특성을 결정하기 위해 한 측면에서 개체를 관찰하고 분석하는 데 사용됩니다.

다변량 (다변량) : 에다이해하고 싶은 몇 가지 변수가 있습니다.
→ 목적은 여러 변수 간의 관계를 보는 것입니다.

여러 각도와 측면에서 변수의 관계를 분석하는 데 유용합니다.

EDA 유형

일변량 비가시화 (유니논그래픽)

데이터를 설명하고 그 안에서 패턴을 찾는 것입니다. 주목적

분석할 데이터가 하나의 변수로 구성되는 가장 간단한 형태의 데이터 분석

예) 요약통계 요약 통계 (전. 평균, 표준 편차, 산란 …)

일변량 심상 (유니 그래픽)

→ 주 목적은 데이터를 전체적으로 보는 것입니다.

이자형x) 히스토그램; 박스 플롯

다변량 비가시화 (무티 논 그래픽)

→ 주 목적은 둘 이상의 주어진 변수 사이의 관계를 확인하는 것입니다.

예) 크로스탭 크로스 테이블, 상관관계 상관 분석

다변량 심상 (무티 그래픽)

→ 두 개 이상의 주어진 변수 사이의 관계를 전체적으로 연구하는 것이 주된 목적

예) 산점도 산포도


EDA 과정

하나.데이터에 대한 총체적 관점 확보

분석의 목적과 목적에 맞는 변수
데이터 유형 확인/ 데이터에 오류나 누락이 있습니까?
도망자, 누락된 값 확인

2. 데이터의 개별 속성 값 참고

개별 데이터를 관찰하고 일반적인 추세와 이상값을 관찰합니다.
데이터를 구성하는 각 속성 값이 예상 범위 및 분포를 갖는지 확인

삼. 속성 간의 관계 분석

개별 속성 관찰에서 찾을 수 없는 속성 조합, 패턴 감지
그래픽을 통해 시각화를 통해 속성 간의 관계 분석

상관계수에 의한 상관관계 확인