본문 바로가기

유사도

(1)

[정리]analyzer를 사용한 수집 정보의 유사성 계산 요약 0. 수집 데이터는 기존 데이터와 완벽 매칭되는 것이 아닌 부분 데이터 검색 결과값이다. 1차 개선 : null 배제 후 유의미한 데이터 포집 2차 개선 : 유의미 데이터 중 overview - wiki_title 매칭하여 용어 변수 비교 (동음이의어, 잘못된 설명 제거로 신뢰성 향상) 3차 개선 : attraction_name - wiki_title의 매칭 값을 기존 결과(match_term에) 보정 값으로 추가 (상위 데이터셋 중 임의 데이터 200개 수기 분석 후 보정치 적용) 이를 통해 용어 일치 비율이 20% 이상 되는 값을 신뢰성 있는 데이터로 판단하여 제공하였다. 이를 도식화한다면 다음과 같다. 최초 문제 상황 현재 기본 공공데이터 API의 지명 이름(attraction_name)과, ..

이전 1 다음

티스토리툴바