티스토리 뷰

목차



    반응형

    유사 응답자 확인
    유사 응답자 확인

     

    유사 응답자 확인은 결측값을 보인 응답자의 전체 패턴을 기준으로 유사한 응답자를 찾아 그 응답값으로 결측을 보완하는 정교한 통계 기법입니다. 실무 사례와 다른 기법과의 비교까지 상세히 설명합니다.

    1. 응답자의 침묵, 그 뒤를 짐작하다

    설문 데이터 분석에서 자주 마주치는 현실 중 하나는 결측값입니다. 특히 민감하거나 주관적인 질문일수록, 응답자가 의도적으로 답변을 피하는 경우가 적지 않죠. 문제는 이 공백들이 전체 분석 흐름에 미묘한 왜곡을 일으킬 수 있다는 점입니다.

    이때 활용할 수 있는 기법 중 하나가 바로 유사 응답자 확인입니다. 이는 결측값을 남긴 응답자의 전체 응답 패턴을 기준으로, 가장 유사한 응답 경향을 보인 다른 응답자를 찾아 해당 문항의 응답값을 채워주는 방식입니다. 단순 평균 대체보다 훨씬 정교하며, 문항 간 상관관계와 맥락을 고려한 보완이 가능하다는 점에서 주목받고 있습니다.

    예를 들어 한 응답자가 건강 설문에서 운동 빈도에 대한 질문을 비워두었다면, 전체적으로 유사한 생활 습관을 보이는 다른 응답자의 해당 문항 응답값을 기반으로 해당 공백을 채울 수 있습니다. 이는 단지 '대신 써주는 것'이 아닌, 분석적 추론에 기반한 ‘정책적 복원’이라 볼 수 있습니다.

    2. 현장체험을 통한 느낌

    몇 해 전, 저는 대학생들의 학업 스트레스 요인을 분석하는 연구 프로젝트에 참여한 적이 있었습니다. 총 120문항이 넘는 대규모 설문조사였는데, 일부 응답자들은 중간중간 답변을 건너뛰거나, 민감한 항목(예: 가족 소득, 심리 상태)에 대해 응답을 남기지 않았습니다.

    당시에는 단순 평균 대체나 리스트와이즈 삭제(listwise deletion) 방식이 일반적이었지만, 그 방식으로는 데이터가 많이 손실되고 분석 신뢰도가 떨어졌습니다. 그래서 새로운 접근으로 시도했던 것이 바로 유사 응답자 확인이었습니다.

    먼저 응답자별 전체 패턴을 벡터화하여 유사도 분석을 실시했고, 결측이 있는 응답자와 가장 비슷한 응답자(예: 코사인 유사도 기준 상위 3명)를 매칭했습니다. 그 후 이들의 응답값 중 가장 일관된 값을 취해 결측값을 대체했더니, 전체 데이터 일관성도 유지되고 분석 결과도 훨씬 해석이 명확해졌습니다.

    하지만 이 방식에도 함정은 있습니다. 첫째, 응답자의 패턴 자체가 일관되지 않은 경우엔 유사도 계산이 왜곡됩니다. 둘째, 문항 간 상관성이 낮거나, 결측이 많은 경우엔 비교 응답자가 의미 있는 기준이 되기 어렵습니다. 실제로 특정 문항에서는 상위 유사 응답자들이 서로 다른 응답을 보인 경우도 있어, 오히려 판단을 더 어렵게 만든 사례도 있었습니다.

    그럼에도 불구하고 데이터 손실을 최소화하면서도 문항의 맥락을 고려한 자연스러운 보완 방법이라는 점에서 강력한 도구임을 분명히 느꼈습니다.

    3. 유사 응답자 확인 vs. 다른 기법들, 그리고 선택의 기준

    결측값 처리는 데이터 분석의 첫 관문이라 할 수 있습니다. 특히 설문조사처럼 사람의 심리나 태도가 반영된 데이터에서는 단순한 수치 이상의 해석이 필요합니다. 이러한 점에서 맥락 중심의 보완 전략이라 할 수 있지만, 모든 상황에 적합한 것은 아닙니다.

    아래는 대표적인 결측 보완 기법들과 비교표입니다.

    기법 원리 장점 단점 적합한 상황
    유사 응답자 확인 유사도 기반 응답 대체 맥락 반영, 높은 정밀도 연산 복잡도, 다변량 조건 필요 응답 패턴이 일관된 설문
    평균 삽입 전체 평균값으로 대체 간단함, 빠름 분산 과소 추정 결측 비율이 낮을 때
    최빈값 삽입 가장 많이 나온 값으로 채움 범주형에 적합 분포 왜곡 위험 명확한 대표값이 있을 때
    다중 대체법 확률 기반 예측과 반복 대체 통계적 엄밀함 계산 복잡, 해석 어려움 연구용 고급 분석

    결국은 결측값이 많거나 민감한 설문 항목을 분석할 때 특히 강력한 방식이 될 수 있습니다. 하지만 이 방식이 성능을 발휘하기 위해선 몇 가지 조건이 충족돼야 합니다. 대표적으로:

    • 응답자의 전반적 패턴이 비교적 일관되어야 함
    • 전체 설문에 대한 응답이 60% 이상은 채워져 있어야 함
    • 유사도를 계산할 수 있는 기준 항목이 충분해야 함

    기계처럼 일률적으로 적용하는 방식이 아니라, 질문의 맥락을 고려해 정성적 판단과 함께 사용하는 것이 이 기법의 핵심입니다.

    결론: 데이터의 공백, 사람의 흔적으로 메우다

    유사 응답자 확인은 단순히 결측값을 메우는 작업이 아닙니다. 그것은 그 데이터를 남긴 사람의 사고방식, 감정의 흔적, 생활 패턴까지도 함께 읽어내는 과정입니다. 우리가 다루는 숫자는 결국 사람의 선택과 망설임, 의식과 무의식이 고스란히 반영된 결과이기 때문입니다. 그리고 분석가는 단순한 수치 해석자에 머물지 않고, 그 공백 속에서 사람을 더 깊이 이해하려는 노력을 해야 합니다.

    결측이란, 말하지 않은 것이지 몰랐던 것이 아닐 수 있습니다. 그렇기에 그 ‘비워진 응답’의 의미를 제대로 복원하려면, 가장 유사한 삶의 궤적을 가진 또 다른 응답자의 흔적을 빌리는 방식은 하나의 섬세한 추론이자 연민의 표현일지도 모릅니다. 통계기법이지만, 동시에 인간의 유사성과 다양성을 존중하는 해석의 도구이기도 합니다.

    그래서 이 기법은 단지 기술적인 보완이 아니라, 해석의 예술이라 부를 만합니다. 비어 있는 공간을 덮어씌우는 것이 아니라, 그 사람의 맥락을 따라가며 가장 자연스럽고 설득력 있는 형태로 채워 넣는 작업이기 때문입니다. 우리는 이런 과정을 통해 숫자 이상의 의미를 되찾고, 데이터라는 언어 속에서 사람이라는 존재를 다시 발견하게 됩니다.

    이처럼 분석의 정밀도를 높이는 도구이자, 데이터 안에 담긴 삶의 조각을 복원하는 창조적 과정입니다. 그리고 그 복원이 정확할수록, 우리는 더 신뢰할 수 있는 해석을 세상에 제시할 수 있습니다.

    출처: 『Survey Data Imputation Handbook』, 통계청 설문 응답관리 지침서, scikit-learn NearestNeighbors 공식 문서

    반응형