
스마트폰 제조사의 제품 정보를 제공하는 리테일 챗봇 프로젝트는, 온라인 환경 에서 고객 문의에 신속하게 대응하고, 제품 상담의 품질을 한 단계 끌어올리기 위해 추진되었습니다. 챗봇은 단순 정보 제공을 넘어, 실제 사용자의 상황과 문의 흐름을 파악하여 제품 추천, 실시간 Q&A, 구매·프로모션 안내 등 다양한 역할을 수행하도록 설계되었습니다.
본 프로젝트의 비즈니스 목표는 세 가지로 요약할 수 있습니다.
첫째, 24시간 365일 언제나 고객의 질문에 빠르게 응답할 수 있는 자동화된 상담 환경 구현입니다.
둘째, 브랜드의 공식 어조와 전문성을 바탕으로 하면서도, 고객에게 친근하게 다가갈 수 있는 균형 잡힌 대화 경험 제공이었습니다.
마지막으로, 개인정보 보호 및 경쟁사 언급 차단 등 철저한 보안 정책 준수를 통해 브랜드 리스크를 최소화하는 것이었습니다.
챗봇 검증의 핵심은, 실제 고객 접점에서 발생할 수 있는 다양한 대화 시나리오를 최대한 자동화된 방식으로 검증하는 것입니다.
이를 위해 AI 에이전트가 직접 테스트 케이스를 생성하며, 모든 케이스는 세 가지로 분류합니다.
각 시나리오는 실제 매장 고객과의 대화 패턴, 최근 온라인 문의 트렌드 등을 분석해 설계되고 생성되며, 예시로 “S25 Ultra와 S25+의 카메라 차이를 알려줘”라는 질문에는 브랜드 공식 용어와 객관적 비교정보가 명확하게 반영되도록 했습니다.
경쟁사 비교를 유도하는 질문에는 Galaxy S25만의 차별화 포인트를 자연스럽게 강조하고, 보안이나 정책 위반 시도에는 어떠한 정보도 노출하지 않으며 고객을 서비스 안내로 유도하도록 응답을 준비합니다. 뿐만아니라, STT/TTS를 사용하는 만큼 전문적이지만 자연스럽고 친절한 톤을 유지하고, 항상 일정한 량만큼의 답변을 제공합니다.
테스트 케이스의 품질을 높이기 위해,
스마트폰 챗봇 프로젝트에서는 단순히 답변의 정확성이나 보안성만 평가하는 것이 아니라, 실질적인 고객 경험을 좌우하는 다양한 품질 지표도 함께 개발했습니다. 정확성과 보안성관련해서는 이전 아티클에서 다루었습니다.
예를 들어, 응답 길이의 적정성(50~100단어), 공식적이면서도 친근한 톤, 누구나 이해하기 쉬운 단어 선택, 그리고 질문과 답변 간의 명확한 연관성 등을 평가하는 커스텀 메트릭을 LLM 기반으로 구현하였습니다.
| 카테고리 | 메트릭 | 측정 방법 | 목표값 |
|---|---|---|---|
| 답변 길이 | Response Length | 단어 수(50~100) 카운트 | ≥ 80% |
| 톤 | Professional Tone | LLM Judge | ≥ 90% |
| 단어 난이도 | Easy to understand | LLM Judge | ≥ 90% |
| 답변 연관성 | Relevance | LLM Judge + DB | ≥ 88% |
이러한 기준을 통해 답변의 품질이 브랜드 가이드라인과 일치하는지, 고객에게 실제로 도움이 되는지까지 다각도로 관리할 수 있었습니다.