CS/NLP
이론 3-3 셀프 어텐션 동작 원리
초코chip
2023. 11. 13. 15:17
인코더/디코더 입력 생성 - 트랜스포머
- 토큰 시퀀스에 위치 정보(문장 내에서 몇번째 위치)를 추가하여 벡터 시퀀스로 변환하는 것
- 다음 인코더/디코더 블록의 입력은 이전 블록의 출력 -> 이를 시퀀스 개수(N) 만큼 반복
트랜스포머 출력층(output layer)
- 출력층의 입력은 디코더 마지막 블록의 출력 벡터 시퀀스
- 출력층의 출력은 타킷 언어의 어휘 수만큼의 차원을 갖는 벡터
- 타깃 언어의 어휘가 3만개면, 3만 개의 차원수를 가지며 3만 개 요소값을 전부 더하면 그 합은 1
셀프 어텐션 내부 동작
(1) 쿼리, 키, 값 만들기