반응형 Scaled Dot-Product Attention1 [Model] About Self-Attention 이번 포스트는 Transformer의 근간이 되는 Self-Attention에 대해 다뤄볼 예정입니다. Transformer Model은 RNN 계열의 Model 없이 Attention만을 이용해 언어 모델을 만들고자 제안된 구조입니다. 이러한 Transformer Model은 RNN을 사용하지 않아 연산 효율이 좋아졌고 성능 또한 높아지는 결과를 얻게 되었습니다. NLP 및 CV 등 다양한 분야에서 SOTA를 달성한 Model이 Transformer를 기반으로 하는 Model들이니까요. Transformer Model은 강력한 성능만큼 내용도 꽤 복잡합니다. 그래서 Mechanism의 첫 번째로 Self-Attention에 대해 설명해 보도록 하겠습니다. 우선, Self-Attention의 기본이 되는.. 2023. 10. 31. 이전 1 다음 반응형