1. 프로젝트 목적

와인 매출 증가에 따라 사용자가 선택한 와인을 바탕으로, 소믈리에들의 평가를 활용해 다양한 품종의 와인을 추천하는 시스템을 개발하고자 하였습니다.

image.png

기존 즐겨하는 품종 외 다른 품종을 시도하고 싶어하는 와인 소비자를 주요 추천 타겟으로 선정

→ 소비자가 맛에 대한 정량적 수치를 찾아보는 불편을 줄이기 위해 소믈리에가 남긴 설명을 기반으로 추천

[활용 데이터셋]

Wine Reviews https://www.kaggle.com/datasets/zynicide/wine-reviews

총 13만개의 데이터 존재


2. 데이터 전처리

1 ) 칼럼 설명

description : 소믈리에가 묘사한 와인의 맛과 향, 모습과 느낌 (추천 기준)

2 ) 텍스트 마이닝 프로세스

  1. 입력 텍스트의 소문자 변환
    1. 소문자로 변환해 일관성 유지
  2. 토큰화 및 불용어 제거
    1. 단어 단위로 텍스트를 분리
    2. 품종에 대한 정보, 와인 품종 종류을 품용어 목록에 추가
    3. 와인 품종 종류를 목록에 추가해 품종이 같은 와인을 추천해주는 것을 방지
  3. 품사 태깅 후, 형용사와 고유명사만 Token으로 남기기
    1. 소믈리에가 시음한 와인과 그에 대한 평가만 Token으로 남기기 위해 형용사, 고유명사인 Token 추출

3. 모델링

  1. TF - IDF 벡터화를 이용한 Token 벡터화
    1. 특정 단어가 전체 문서에서 중요한 정도에 대한 지표로 벡터화
    2. 76,751 개의 와인 종류를 6,366개의 Token으로 설명