문서 분류(document classification)
- 정의: 문서가 주어졌을 때, 해당 문서의 범주를 분류하는 과제
- 종류:
- 범주 분류
- 감성 분석(sentiment analysis): 문장의 극성(polarity)를 분류하는 과제

분류 모델 처리 구조
1. 모델 입력
- 문장을 토큰 시퀀스로 변환하기 위해 토크나이저와 어휘 사전(vocab)을 활용
- 토큰 시퀀스에 스페셜 토큰(CLS, SEP) 첨부
2. 모델 처리
- 입력된 토큰 시퀀스의 각 토큰에 대해 임베딩(토큰을 벡터 변환)을 계산
- 최종적으로 문장 수준의 벡터 추출
3. 분류 태스크 모듈 첨가
문장 수준의 벡터에 작은 추가 모듈을 덧붙여 모델 전체의 출력이 [긍정일 확률, 부정일 확률] 형태가 되로록 설정
태스크 모듈 구조
1. 드롭 아웃 처리
- 드롭 아웃 정의: 입력 벡터 요소값 중 일부를 랜덤으로 0으로 바꿔 이후 계산에 포함시키지 않는 것
- 문장 수준의 벡터에 드롭아웃을 적용
2. 가중치 행렬 곱 진행
- 문장 수준의 벡터를 분류해야 할 범주 수만큼의 차원을 갖는 벡터로 변환
- 마지막으로 softmax 함수를 취하면 모델의 최종 출력이 됨

'CS > NLP' 카테고리의 다른 글
실습1-2. 텍스트 분류 모델 API 생성 (0) | 2024.03.21 |
---|---|
실습1-1. 텍스트 분류 모델 생성 (0) | 2024.03.21 |
이론 3-6. 단어/문장을 벡터로 변환(임베딩) (0) | 2023.11.13 |
이론 3-5. BERT와 GPT 비교 (0) | 2023.11.13 |
이론 3-4. 트랜스포머에 적용된 기술 (0) | 2023.11.13 |