GIS

국립공원 자원통합 DB 기초분석 (2) - 데이터 정제하기(Data Cleansing)

유병혁 2012. 2. 11. 04:53

이전 글에서는 조사모니터링 DB > 엑셀 파일(*.xls) 출력 > GIS 포맷 파일(*.shp) 변환 과정을 학습해 보았습니다.

이번 글에서는 학습자료인 지리산 포유류 데이터 중에 분석상 불필요한 레코드들을 제거하는 데이터 정제에 대하여 학습해 보겠습니다.

 

먼저, 지리산 포유류 데이터의 속성값을 살펴보기 위해 레이어명에서 우클릭 > Open Attribute Table을 클릭합니다. 

 

아래와 같이 포유류 데이터의 속성값 필드들을 확인할 수 있습니다.

 

전체 레코드 수는 총 1,218개입니다.

다시 말하면 2002년부터 2008년까지 지난 7년간 지리산 조사모니터링을 통해 입력된 총 수입니다.

구분 전체 레코드수
레코드수(건) 1,218

 

여기서 반드시 있어야 하는 필드 값 중 하나는 바로 확인종입니다.

하지만 아래와 같이 확인종이 미입력된 행도 존재하므로, 이러한 값들은 전체에서 제외시켜 보도록 하겠습니다.

 

확인종 필드에서 값이 ''인 레코드를 조회하기 위하여 Selection > Select by Attributes를 클릭합니다.

 

아래와 같이 조건문을 작성하고 OK 버튼을 클릭합니다.

 

아래 그림에서 형광색으로 표현되는 좌표들이 등록은 되었으나 확인종이 미입력된 레코드에 해당됩니다.

 

레코드가 선택된 상태에서 Editor > Start Editing을 선택하고, 키보드의 Delete 버튼을 클릭합니다. 

Save Edits, Stop Editing 순으로 클릭하여 편집 상태를 저장합니다.

 

아래와 같이 확인종이 미입력된 레코드들이 제거되었음을 확인할 수 있습니다.

확인종 미입력 오류는 전체 중 10.6%에 해당하는 129건에 해당됩니다.

구분 전체 레코드수 1)확인종 미입력
레코드수(건) 1,218 129
비율(%) 100.0 10.6

 

이번에는 위경도가 미입력된 건들을 제외시켜 보겠습니다.

물론, 확인종 값이 있으면 위치값이 없어도 전체 통계에서는 유의한 데이터로 볼 수 있지만, 여기서는 공간분석을 하게 되므로 불필요한 값으로 간주합니다.

 

Select By Attributes를 실행하고 아래와 같이 '위도' 또는 '경도' 필드값이 0인 레코드들을 선택합니다.

조회 결과, 위경도 미입력 건은 65건으로 전체 대비 5.3%에 해당됩니다.

구분 전체 레코드수 1)확인종 미입력 2)위경도 미입력
레코드수(건) 1,218 129 65
비율(%) 100.0 10.6 5.3

 

이번에는 조사모니터링 데이터 중 위치좌표가 공원경계를 크게 벗어나 있는 건들을 제외시키겠습니다.

일부 좌표들은 국경을 벗어난 북한 또는 해양에 위치되어 있기 때문에, 마찬가지로 본 학습에서는 불필요한 데이터로 간주합니다.

 

이번에는 Selection > Select By Location을 클릭합니다.

 

아래와 같이 조건을 설정합니다.

이것은 지리산 공원경계를 기준으로 4KM 완충구간 내에 속하는 좌표들만을 선택한다는 뜻입니다.

 

실제로 제외시킬 건들은 4KM를 벗어나는 값들이기 때문에, Options > Switch Selection을 클릭합니다.

 

아래와 같이 공원 경계를 4KM 이상 벗어난 좌표들이 선택되었음을 확인할 수 있습니다.

총 38개로 전체 건 중 3.1%에 해당합니다.

 

이 값을 제외한 데이터 정제 결과는 아래와 같습니다.

전체 레코드수에서 1) 확인종 미입력 건, 2) 위경도 미입력 건, 3) 공원경계 4KM 제외를 처리하고 잔여 레코드 수는 986건(81%)입니다.

구분 전체 레코드수 1)확인종 미입력 2)위경도 미입력 3)공원경계 4KM 제외 잔여 레코드수
레코드수(건) 1,218 129 65 38 986
비율(%) 100.0 10.6 5.3 3.1 81.0

 

다음 글에서는 정제된 DB를 가지고 기초적인 통계분석을 해보도록 하겠습니다.