본문 바로가기
  • 우당탕탕속의 잔잔함
반응형

multi-head attention2

[Model] About Attention Mechanism 이번 포스트는 Transformer의 시초가 되는 Attention에 대해 간단하게 작성해 보도록 하겠습니다. 최근 AI와 관련된 논문들은 Transformer를 기반으로 한 경우가 꽤 많습니다. 그리고 이 Transformer는 Attention이라는 개념을 사용합니다. 이 Attemtion Mechanism은 NLP 분야에서 활용되는 seq2seq Model(≒ Encoder-Decoder Model)의 Sequence의 길이가 길어질수록 정보의 손실이 발생한다는 문제점을 개선하기 위해 제안된 방식입니다. (seq2seq에 대한 자세한 내용은 현재 페이지에서는 생략하도록 하겠습니다. Encoder-Decoder Model에 대한 자세한 내용은 다음 링크를 참조해 주세요.) [Model] About s.. 2023. 10. 31.
[Model] About Multi-Head Attention 이번 포스트는 여러 가지 Attention이 종류 중 하나인, Multi-Head Attention에 대해 다뤄볼 예정입니다. Multi-Attention은 다음과 같이 Head의 수만큼 Attention을 각각 병렬로 나누어 계산을 한 후, 생성된 Attention Value들을 Concatenate 하여 하나로 합치는 과정을 의미합니다. 이와 같은 과정을 수행하면 Attention을 한 번 사용할 때와 같은 크기의 결과를 얻을 수 있습니다. 위 과정을 구체적인 예를 통해 다뤄보도록 하겠습니다. 아래 예시 이미지와 같이, 4x4 Size의 Embedding Vector와 4x8의 Query(2x4), Key(2x4), Value(2x4)가 있다면, 일반적인 Attention Mechanism은 [4x4.. 2023. 10. 31.
반응형