결측치는 쉽게 말해 비어 있는 데이터를 의미한다.
편의상 4. 파일 저장 및 열기에서 저장한 파일을 불러온다.
-fillna : 전체 데이터에 대해서 NaN 데이터를 빈칸으로 채운다.
'SW특기'에 부여된 NaN이 빈칸으로 채워진 것을 볼 수 있다.
다음은 numpy 모듈을 import해서 해당 column에 대해 NaN으로 채우는 것을 확인해 보자.
'학교' 라는 column에 대해 모두 NaN이 부여된 것을 알 수 있다.
다음은 NaN데이터에 어떠한 데이터를 부여한 것이다.
'SW특기' column에 대해 NaN으로 부여된 데이터를 '확인중'으로 바꾸었다.
다음은 전체 데이터 중에서 NaN을 포함하는 데이터를 삭제한 것이다.
dropna를 사용하여 'SW특기' 중에서 NaN이라 부여된 데이터의 row를 전부 지워주었다.
- axis
: index or column / NaN이 포함된 데이터를 지우는데 row를 지우는지 column을 지우는지를 결정한다.
- how
: any or all / NaN이 포함된 데이터에 대해서 any면 하나만 NaN이어도, all이면 모두 NaN일 때
다음은 axis = 'index', how = 'any'의 예시이다.
axis = 'index' 이므로 NaN 데이터가 포함된다면 해당 row를 지워줄 것이다.
how = 'any' 이므로 해당 row에 적어도 하나 NaN 데이터가 포함되어 있으면 지워줄 것이다.
'Jupyter Computer > Pandas' 카테고리의 다른 글
[Python] 12. Pandas - 데이터 수정 (0) | 2022.03.06 |
---|---|
[Python] 11. Pandas - 데이터 정렬 (0) | 2022.03.05 |
[Python] 9. Pandas - 데이터 선택 (조건) (0) | 2022.03.03 |
[Python] 8. Pandas - 데이터 선택(iloc) (0) | 2022.03.03 |
[Python] 7. Pandas - 데이터 선택(loc) (0) | 2022.03.03 |