이론 3-6. 단어/문장을 벡터로 변환(임베딩)

CS/NLP

초코chip 2023. 11. 13. 19:31

파인 튜닝(fine-tuning)

문장을 워드피스로 토큰화 + 문장 앞뒤에 시작과 끝을 알리는 스페셜 토큰 추가(CLS, SEP)

BERT는 트랜스포머 인코더 블록을 여러 개 쌓은 구조

각 블록의 입력과 출력은 단어의 벡터 시퀀스

블록 내에서 토큰 벡터를 2개씩 짝을 지어 서로의 관계를 모두 고려하는 방식으로 계산

토큰화를 통해 문장 -> 토큰으로 변경

문장	토큰
[ "안녕하세요", "하이!" ]	[ [2, 19017, 8482, 3, 0, 0, 0, 0, 0, 0], [2, 15830, 5, 3, 0, 0, 0, 0, 0, 0] ] 각 문장마다 토큰 길이 10개로 지정 -> 토큰의 shape = [2, 10]

모델을 통해 토큰 -> 벡터로 변경. 해당 과정을 임베딩(embedding)이라고 함

토큰	벡터
[ [2, 19017, 8482, 3, 0, 0, 0, 0, 0, 0], [2, 15830, 5, 3, 0, 0, 0, 0, 0, 0] ] 각 문장마다 토큰 길이 10개로 지정 -> 토큰의 shape = [2, 10]	벡터의 shape = [2, 10, 768]