반응형 병렬 처리1 [Model] About Multi-Head Attention 이번 포스트는 여러 가지 Attention이 종류 중 하나인, Multi-Head Attention에 대해 다뤄볼 예정입니다. Multi-Attention은 다음과 같이 Head의 수만큼 Attention을 각각 병렬로 나누어 계산을 한 후, 생성된 Attention Value들을 Concatenate 하여 하나로 합치는 과정을 의미합니다. 이와 같은 과정을 수행하면 Attention을 한 번 사용할 때와 같은 크기의 결과를 얻을 수 있습니다. 위 과정을 구체적인 예를 통해 다뤄보도록 하겠습니다. 아래 예시 이미지와 같이, 4x4 Size의 Embedding Vector와 4x8의 Query(2x4), Key(2x4), Value(2x4)가 있다면, 일반적인 Attention Mechanism은 [4x4.. 2023. 10. 31. 이전 1 다음 반응형