이전 글에서는 조사모니터링 DB > 엑셀 파일(*.xls) 출력 > GIS 포맷 파일(*.shp) 변환 과정을 학습해 보았습니다.
이번 글에서는 학습자료인 지리산 포유류 데이터 중에 분석상 불필요한 레코드들을 제거하는 데이터 정제에 대하여 학습해 보겠습니다.
먼저, 지리산 포유류 데이터의 속성값을 살펴보기 위해 레이어명에서 우클릭 > Open Attribute Table을 클릭합니다.
아래와 같이 포유류 데이터의 속성값 필드들을 확인할 수 있습니다.
전체 레코드 수는 총 1,218개입니다.
다시 말하면 2002년부터 2008년까지 지난 7년간 지리산 조사모니터링을 통해 입력된 총 수입니다.
구분 | 전체 레코드수 |
레코드수(건) | 1,218 |
여기서 반드시 있어야 하는 필드 값 중 하나는 바로 확인종입니다.
하지만 아래와 같이 확인종이 미입력된 행도 존재하므로, 이러한 값들은 전체에서 제외시켜 보도록 하겠습니다.
확인종 필드에서 값이 ''인 레코드를 조회하기 위하여 Selection > Select by Attributes를 클릭합니다.
아래와 같이 조건문을 작성하고 OK 버튼을 클릭합니다.
아래 그림에서 형광색으로 표현되는 좌표들이 등록은 되었으나 확인종이 미입력된 레코드에 해당됩니다.
레코드가 선택된 상태에서 Editor > Start Editing을 선택하고, 키보드의 Delete 버튼을 클릭합니다.
Save Edits, Stop Editing 순으로 클릭하여 편집 상태를 저장합니다.
아래와 같이 확인종이 미입력된 레코드들이 제거되었음을 확인할 수 있습니다.
확인종 미입력 오류는 전체 중 10.6%에 해당하는 129건에 해당됩니다.
구분 | 전체 레코드수 | 1)확인종 미입력 |
레코드수(건) | 1,218 | 129 |
비율(%) | 100.0 | 10.6 |
이번에는 위경도가 미입력된 건들을 제외시켜 보겠습니다.
물론, 확인종 값이 있으면 위치값이 없어도 전체 통계에서는 유의한 데이터로 볼 수 있지만, 여기서는 공간분석을 하게 되므로 불필요한 값으로 간주합니다.
Select By Attributes를 실행하고 아래와 같이 '위도' 또는 '경도' 필드값이 0인 레코드들을 선택합니다.
조회 결과, 위경도 미입력 건은 65건으로 전체 대비 5.3%에 해당됩니다.
구분 | 전체 레코드수 | 1)확인종 미입력 | 2)위경도 미입력 |
레코드수(건) | 1,218 | 129 | 65 |
비율(%) | 100.0 | 10.6 | 5.3 |
이번에는 조사모니터링 데이터 중 위치좌표가 공원경계를 크게 벗어나 있는 건들을 제외시키겠습니다.
일부 좌표들은 국경을 벗어난 북한 또는 해양에 위치되어 있기 때문에, 마찬가지로 본 학습에서는 불필요한 데이터로 간주합니다.
이번에는 Selection > Select By Location을 클릭합니다.
아래와 같이 조건을 설정합니다.
이것은 지리산 공원경계를 기준으로 4KM 완충구간 내에 속하는 좌표들만을 선택한다는 뜻입니다.
실제로 제외시킬 건들은 4KM를 벗어나는 값들이기 때문에, Options > Switch Selection을 클릭합니다.
아래와 같이 공원 경계를 4KM 이상 벗어난 좌표들이 선택되었음을 확인할 수 있습니다.
총 38개로 전체 건 중 3.1%에 해당합니다.
이 값을 제외한 데이터 정제 결과는 아래와 같습니다.
전체 레코드수에서 1) 확인종 미입력 건, 2) 위경도 미입력 건, 3) 공원경계 4KM 제외를 처리하고 잔여 레코드 수는 986건(81%)입니다.
구분 | 전체 레코드수 | 1)확인종 미입력 | 2)위경도 미입력 | 3)공원경계 4KM 제외 | 잔여 레코드수 |
레코드수(건) | 1,218 | 129 | 65 | 38 | 986 |
비율(%) | 100.0 | 10.6 | 5.3 | 3.1 | 81.0 |
다음 글에서는 정제된 DB를 가지고 기초적인 통계분석을 해보도록 하겠습니다.