CS/NLP

이론 2-3. 워드피스(wordpiece)

초코chip 2023. 11. 10. 18:11

vs BPE

  • 유사점: 말뭉치에서 자주 등장하는 문자열을 토큰으로 인식
  • 다른점:
    • BPE는 단순히 빈도를 기준으로 병합
    • 워드피스는 말뭉치의 우도(likelihood)를 가장 높이는 쌍으로 병합

 

토큰화 방법

BPE

  • 어절별로 병합 우선순위(merges.txt)가 높은 바이그램 쌍을 반복하여 병합
  • 병합된 토큰이 어휘 집합(vocab.json)에 있는지 확인하여 최종 결과 도출

워드피스

어휘 집합(vocab.json)만 가지고 토큰화

 

더 자세한 내용 p.50쪽