본문 바로가기
  • 우당탕탕속의 잔잔함
반응형

Attention4

[Model] About Transformer : Attention Is All You Need 이번 포스트는 최근 AI 분야에서 활발하게 활용되고 있는, Attention 구조를 활용한 Transformer 구조에 대해 다뤄보도록 하겠습니다. 우선, Transformer에 대한 논문은 다음과 같습니다. Attention Is All You Need The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new.. 2023. 10. 31.
[Model] About Attention Mechanism 이번 포스트는 Transformer의 시초가 되는 Attention에 대해 간단하게 작성해 보도록 하겠습니다. 최근 AI와 관련된 논문들은 Transformer를 기반으로 한 경우가 꽤 많습니다. 그리고 이 Transformer는 Attention이라는 개념을 사용합니다. 이 Attemtion Mechanism은 NLP 분야에서 활용되는 seq2seq Model(≒ Encoder-Decoder Model)의 Sequence의 길이가 길어질수록 정보의 손실이 발생한다는 문제점을 개선하기 위해 제안된 방식입니다. (seq2seq에 대한 자세한 내용은 현재 페이지에서는 생략하도록 하겠습니다. Encoder-Decoder Model에 대한 자세한 내용은 다음 링크를 참조해 주세요.) [Model] About s.. 2023. 10. 31.
[Model] About Multi-Head Attention 이번 포스트는 여러 가지 Attention이 종류 중 하나인, Multi-Head Attention에 대해 다뤄볼 예정입니다. Multi-Attention은 다음과 같이 Head의 수만큼 Attention을 각각 병렬로 나누어 계산을 한 후, 생성된 Attention Value들을 Concatenate 하여 하나로 합치는 과정을 의미합니다. 이와 같은 과정을 수행하면 Attention을 한 번 사용할 때와 같은 크기의 결과를 얻을 수 있습니다. 위 과정을 구체적인 예를 통해 다뤄보도록 하겠습니다. 아래 예시 이미지와 같이, 4x4 Size의 Embedding Vector와 4x8의 Query(2x4), Key(2x4), Value(2x4)가 있다면, 일반적인 Attention Mechanism은 [4x4.. 2023. 10. 31.
[Model] About Self-Attention 이번 포스트는 Transformer의 근간이 되는 Self-Attention에 대해 다뤄볼 예정입니다. Transformer Model은 RNN 계열의 Model 없이 Attention만을 이용해 언어 모델을 만들고자 제안된 구조입니다. 이러한 Transformer Model은 RNN을 사용하지 않아 연산 효율이 좋아졌고 성능 또한 높아지는 결과를 얻게 되었습니다. NLP 및 CV 등 다양한 분야에서 SOTA를 달성한 Model이 Transformer를 기반으로 하는 Model들이니까요. Transformer Model은 강력한 성능만큼 내용도 꽤 복잡합니다. 그래서 Mechanism의 첫 번째로 Self-Attention에 대해 설명해 보도록 하겠습니다. 우선, Self-Attention의 기본이 되는.. 2023. 10. 31.
반응형