CS/NLP

이론 3-3 셀프 어텐션 동작 원리

초코chip 2023. 11. 13. 15:17

인코더/디코더 입력 생성 - 트랜스포머 

  • 토큰 시퀀스에 위치 정보(문장 내에서 몇번째 위치)를 추가하여 벡터 시퀀스로 변환하는 것
  • 다음 인코더/디코더 블록의 입력은 이전 블록의 출력 -> 이를 시퀀스 개수(N) 만큼 반복 

 

트랜스포머 출력층(output layer)

  • 출력층의 입력은 디코더 마지막 블록의 출력 벡터 시퀀스
  • 출력층의 출력은 타킷 언어의 어휘 수만큼의 차원을 갖는 벡터
    • 타깃 언어의 어휘가 3만개면, 3만 개의 차원수를 가지며 3만 개 요소값을 전부 더하면 그 합은 1

 

셀프 어텐션 내부 동작

(1) 쿼리, 키, 값 만들기