CS/NLP

이론 3-1. 사전 학습된 모델

초코chip 2023. 11. 10. 23:37

언어 모델 (language model)

  • 정의: 입력받은 전체 단어 시퀀스가 얼마나 그럴듯한지 확률을 부여하는 모델
    • 여기서 확률은 n개의 단어가 동시에 나타날 결합 확률(joint probability)를 의미
    • 따라서 언어 모델의 수식은 P(w1, w2, w3, ... , wn) = p(w1) * P(w2 | w1) * P(w3 | w1, w2) ....
    • 즉, 전체 단어 시퀀스가 나타날 확률 = 이전 단어들이 주어졌을 때 다음 단어가 등장할 확률의 연쇄와 동일(조건부확률)
  • 위 조건부 수식에 따라 또다른 정의 도출
    • 정의2: 이전 단어들이 주어졌을 때 다음 단어가 등장할 확률을 부여하는 모델

 

순방향 언어 모델(forward language model)

  • 학습 방법: 위 정의2에 의해서 언어 모델을 학습 방법은 이전 단어들(컨텍스트)이 주어졌을 때 다음 단어 맞히기로 진행
    • 단어 시퀀스를 앞에서 뒤로(사람이 이해하는 순서로) 다음 단어 맞히기 과정에서 전체 단어 시퀀스가 나타날 확률을 계산
  • GPT, ELMo 모델의 학습 방법

 

역방향 언어 모델(backward language model)

  • 학습 방법: 뒤에서 앞으로 다음 단어 맞히기 과정에서 전체 단어 시퀀스가 나타날 확률 계산
  • ELMo 모델의 학습 방법

 

넓은 의미의 언어 모델

  • 최근에는 언어 모델의 수식을 다음과 같이 정의: P(w | context)
    • 주변 맥락 정보(context)가 주어졌을 때, 특정 단어(w)가 나타날 확률을 의미

 

마크스 언어 모델(masked laguage model)

  • 학습 방법: 문장에 빈칸을 만들어 놓고 해당 빈칸에 들어갈 단어 맞히기
    • 즉, 빈칸이 맞춰야 할 단어(w), 빈칸 제외한 모든 단어가 맥락(context)
    • context가 주어졌을 때, 빈칸의 단어가 나올 확률을 높이는 방향으로 학습
  • 문장 전체 맥락 참고 가능( 양방향 성질을 가짐 )
  • BERT 모델이 해당 방식 사용

 

스킵 - 그램 모델(skip-gram model) 

  • 학습 방법: 컨텍스트로 설정한 단어 주변(앞뒤)에 어떤 단어들이 분포해  있는지 학습
    • 즉, 선정된 단어 한개가 맥락(context), 해당 단어 주변의 단어들이 맞춰야 할 단어들(w)
    • 단어 한개가 주어졌을 때, 주변 단어들이 나올 확률을 높이는 방향으로 학습
  • Word2Vec 모델이 해당 방식 사용

 

언어 모델의 활용

잘 학습된 언어 모델을 학습 대상 언어의 풍부한 맥락을 포함하여 아래 태스크를 수행 가능

  • 기계 번역: P(? | You can't be free from death)
  • 문법 교정: P(두시 삼십 이분) > P(이시 서른 두분)
  • 문장 생성: P(? | 발 없는 말이)

 

언어 모델의 장점

  • 데이터 제작 비용이 우수: '다음 단어 맞히기'나 '빈칸 맞히기' 등으로 학습 태스크를 구성하면 사람이 일일이 수작업해야하는 레이블 없이도 많은 학습 데이터를 싼 값에 만들어 낼 수 있음
  • 전이 학습: 대량의 말뭉치로 사전 학습한 모델을 다운스트림 태스크에 적용하면, 적은 양의 데이터로도 성능을 큰 폭으로 올리기 가능                                                                                                                                                                                                                                                                                                                        

 

 

 

 

'CS > NLP' 카테고리의 다른 글

이론 3-3 셀프 어텐션 동작 원리  (0) 2023.11.13
이론 3-2. 트랜스포머  (0) 2023.11.11
이론 2-3. 실습 - 어휘 집합 구축  (0) 2023.11.10
이론 2-3. 워드피스(wordpiece)  (0) 2023.11.10
이론 2-2. 바이트 페이 인코딩(BPE)  (0) 2023.11.10