CS/NLP
이론 2-3. 워드피스(wordpiece)
초코chip
2023. 11. 10. 18:11
vs BPE
- 유사점: 말뭉치에서 자주 등장하는 문자열을 토큰으로 인식
- 다른점:
- BPE는 단순히 빈도를 기준으로 병합
- 워드피스는 말뭉치의 우도(likelihood)를 가장 높이는 쌍으로 병합
토큰화 방법
BPE
- 어절별로 병합 우선순위(merges.txt)가 높은 바이그램 쌍을 반복하여 병합
- 병합된 토큰이 어휘 집합(vocab.json)에 있는지 확인하여 최종 결과 도출
워드피스
어휘 집합(vocab.json)만 가지고 토큰화
더 자세한 내용 p.50쪽