CS/NLP

이론 4. 문서 분류 모델

초코chip 2023. 11. 13. 19:42

문서 분류(document classification)

  • 정의: 문서가 주어졌을 때, 해당 문서의 범주를 분류하는 과제
  • 종류:
    • 범주 분류
    • 감성 분석(sentiment analysis): 문장의 극성(polarity)를 분류하는 과제

 

분류 모델 처리 구조

1. 모델 입력

  • 문장을 토큰 시퀀스로 변환하기 위해 토크나이저와 어휘 사전(vocab)을 활용
  • 토큰 시퀀스에 스페셜 토큰(CLS, SEP) 첨부

 

2. 모델 처리

  • 입력된 토큰 시퀀스의 각 토큰에 대해 임베딩(토큰을 벡터 변환)을 계산
  • 최종적으로 문장 수준의 벡터 추출

 

3. 분류 태스크 모듈 첨가

문장 수준의 벡터에 작은 추가 모듈을 덧붙여 모델 전체의 출력이 [긍정일 확률, 부정일 확률] 형태가 되로록 설정

 

태스크 모듈 구조

1. 드롭 아웃 처리

  • 드롭 아웃 정의: 입력 벡터 요소값 중 일부를 랜덤으로 0으로 바꿔 이후 계산에 포함시키지 않는 것
  • 문장 수준의 벡터에 드롭아웃을 적용

 

2. 가중치 행렬 곱 진행

  • 문장 수준의 벡터를 분류해야 할 범주 수만큼의 차원을 갖는 벡터로 변환
  • 마지막으로 softmax 함수를 취하면 모델의 최종 출력이 됨