본문 바로가기
  • 우당탕탕속의 잔잔함
반응형

Deep Learning31

[Model] RetinaNet 이번 포스트는 RetinaNet에 대해 정리해보고자 합니다. Object Detection 및 Keypoints Detection을 수행할 경우, ResNet과 비슷하게 많이 사용되는 Model이 RetinaNet이라고 생각됩니다. 해당 모델은 ResNet을 Backbone으로 하고 있으며 일부 더 나은 결과를 보이기도 합니다. 우선, RetinaNet에 대한 논문은 다음과 같습니다. Focal Loss for Dense Object Detection The highest accuracy object detectors to date are based on a two-stage approach popularized by R-CNN, where a classifier is applied to a sparse.. 2023. 2. 22.
[Model] MobileNet v1 개발자로서 스트레스를 많이 받는 것 중 하나는 수행 속도입니다. 특히, AI 그리고 Deep Learning에서의 처리 속도 개선은 어려운 작업 중 하나입니다. 이와 관련된 고민들을 통해 만들어진 MobileNet에 대해 간단하게 설명해보고자 합니다. 보통 개발자 입장에서 AI라고 하면 가장 먼저 떠오르는 것들 중 하나는 GPU일 것입니다. 2016년 이세돌과 대결했던 알파고는 GPU대신 48개의 TPU를 사용했고 판후이와의 대결에서는 1202개의 CPU와 176개의 GPU를 사용했다고 합니다. 즉, 엄청난 컴퓨팅 파워를 사용해야 쓸만한 뭔가가 나온다는 얘기가 되는 것이죠. 그러나 현실에서는 위와 같은 컴퓨팅 파워를 갖기에는 한계가 있습니다. 자동차, 드론, 스마트폰과 같은 환경에서는 GPU는커녕, 기껏.. 2023. 2. 21.
[Pose Estimation] 2D/3D Pose Estimation에 관한 내용 Computer Vision과 관련된 AI, Deep Learning 분야에서 거의 필수적으로 다루는 주제가 있습니다. 바로 Pose Estimation인데요. 이번 포스트에서는 이 Pose Estimation에 관한 내용을 다루고자 합니다. Pose Estimation이란 무엇일까요? 사전적 정의로는 Computer Vision의 한 분야로 Object의 Position과 Orientation을 Detection하고자 하는 분야를 의미합니다. 좀 더 예시적으로 말한다면 위의 이미지와 같이 이미지 속에 위치한 사람의 Skeleton을 추정하는 것을 의미합니다. 보통 2D와 3D Pose Estimation으로 나누어 지는데, 2D는 결과값으로 각 신체부위의 X, Y 좌표를 반환하고, 3D는 결과 값으로 .. 2023. 2. 15.
[Model] Grad-CAM Model 내부에서 Object Detection등과 같은 연산을 진행할 때, 어느 곳이 활성화되어서 Detection을 수행하는지에 대해 확인할 수 있는 방안이 필요할 수도 있습니다. 이를 위한 Grid-CAM 부분을 정리하고자 합니다. CAM 학습 이미지와 이에 대한 Label만 있는 상황에서 DL Model이 Image의 어느 부분을 보았는지를 알고 싶을 때, 학습 이미지와 이에 대한 Bounding Box만 있는 상황에서 각 Pixel에 대한 Label을 알고 싶을 때가 있습니다. 위와 같은 상황은 학습할 이미지에 대한 정보보다 예측해야 할 정보가 더 디테일한 경우라고 할 수 있고, 이를 Weakly Supervised Learning이라고 하는데, 이는 CAM을 통해서 알 수 있습니다. CAM은.. 2023. 2. 15.
[Model] ResNet Object Detection, Keypoint Detection, 이외의 Prediction 및 Classification 기능을 수행하는 AI를 개발할 때 많이 활용되는 구조인 ResNet에 대해 다뤄볼 예정입니다. ResNet으로 널리 알려진 이 구조는 2015년 MicroSoft에서 개발한 알고리즘으로 정식 게재된 논문 명은 “Deep Residual Learning for Image Recognition”입니다. 2014년 GoogLeNet이 22개의 층으로 구성된 것에 비해 ResNet은 152개의 층을 가진다. 7배 깊어진, 급속도로 깊어진 Model입니다. ResNet에 대한 논문은 다음 링크에서 확인할 수 있습니다. Deep Residual Learning for Image Recogni.. 2023. 2. 13.
[AI] ChatGPT 사용 및 원리 요즘 전세계를 흔드는(?) 서비스가 출시되었습니다. 바로 ChatGPT인데요. 이번 포스트에서는 ChatGPT가 무엇인지, 어떤 기능을 어디까지 수행하는지, 원리는 무엇인지에 대해 다뤄볼 예정입니다. ChatGPT, 좀 더 자세하게는 2018년 GPT-1이 공개된 후 꾸준히 개선되어 최근 2022년 12월 1일에 ChatGPT(= GPT-3.5)로 공개되었습니다. 공개된지 5일 만에 100만 유저가 가입했으며, 최근에 공개된 이 3.5 버전이 개발자뿐만 아니라 비개발자들에게도 화제가 되면서 유명세가 날로 높아지고 있습니다. 실제 사용해보니 지금까지 사용해 왔던 대화형 AI들 중에서 최상위 랭크에 속해있다고 해도 과언이 아닐 정도로 성능이 좋았습니다. 뭐... 그래서 이 글을 작성하게 된 것이긴 합니다.ㅎ.. 2023. 2. 10.
[Deep Learning] LSTM 예측 모델을 이용한 작곡가 프로그램 개발 이번 포스트에서는 예측 모델을 통한 작곡 프로그램을 만들어보고자 합니다. 이전에 Music21과 관련된 글을 작성했었는데 이 Toolkit을 이용해 음성 데이터를 다룰 것입니다. 우선 Music21과 관련된 글은 다음과 같습니다. [Toolkit] 음악학에 활용되는 Music21 사용 방법 이번 포스트에서는 음악과 관련된 작업을 수행할 때 활용되는 Python Toolkit인 Music21에 대해 다뤄볼 것입니다. Music21이란 무엇인지, 어떻게 활용하면 좋을지 등에 관해 작성해봅니다. Music21이란, 음 mj-thump-thump-story.tistory.com 그럼, 본격적으로 개발을 진행해보겠습니다. 이번 개발의 목표는 어떠한 MIDI 음악 파일을 Input으로 하여 LSTM Model을 학.. 2023. 2. 8.
[WEB + Classifier] Django환경에서 TensorFlow 구동 이번 포스트에서는 Web에서 구동되는 Image Classifier를 개발해 볼 것입니다. Django와 TensorFlow를 통해 구현해 볼 예정입니다! Django를 통해 Web환경을 구성하고 해당 환경에서 간단한 Image Classifier를 구동시킬 것입니다. 이때 Image Classifier는 TensorFlow를 통해 구현할 것입니다. 우선, Django에 대한 간단한 내용은 다음 글을 참고하시면 도움이 될 것이라 생각됩니다. [WEB] Django를 통한 간단한 웹 구축하기 요번 포스트에서는 Django를 아주 간단하게 다뤄보도록 하겠습니다. 저는 Back-End 개발자가 아니기에... 아주 심플하게 수행해볼 예정입니다. Deep Learning과 관련된 프로젝트를 수행하다보면 Serve.. 2023. 1. 27.
[AI] Multi Modal에 대한 정의 및 예시 이번 포스트에서는 Multi Modality란 무엇인지에 알아보고자 합니다. 비교적 가벼운 내용이므로 쉽게 접근할 수 있을 것이라 생각됩니다. Multi-Modal 이란 Multi Modality의 줄임말입니다. 한국어로 쓰면 여러 개의 모달리티라는 의미를 가지는데, 이때 Modality는 시각, 청각, 촉각, 미각, 후각 등 각각의 감각 채널을 의미합니다. 조금 넓혀서 말하면, 어떤 형태로 나타나는 현상이나 받아들이는 방식을 의미합니다. IT 분야에서는 과거, 마우스와 키보드, 화면, 음성 등의 여러 채널을 이용한 프로그램을 멀티 모달리티라고 명하기도 했습니다. 하지만 4차 산업 시대를 맞이하면서 멀티 모달리티의 의미가 조금 바뀌게 되었습니다. 최근에는 인간의 감각(시각, 청각 등)과 같은 여러 인터페.. 2023. 1. 10.
[GAN] EveryBodyDanceNow에 대한 정보 및 수행 이번 포스트에서는 Everybody Dance Now라는 프로젝트 명으로 소개된 논문을 다뤄보고자 합니다. OpenPose를 통해 Pose를 추정하고 GAN을 기반으로 하여 추정된 Pose를 수행하는 어떠한 Image들을 생성해내는 논문이 2019년도에 소개되었습니다. 해당 논문을 처음 보게 된 것은 2022년도였는데, 지금 포스팅을 하게 되었네요. 아무튼 논문에 대해 간단히 알아보고 실제 수행해보도록 하겠습니다. 다룰 논문(프로젝트) 링크는 다음과 같습니다. URL : https://carolineec.github.io/everybody_dance_now/ Everybody Dance Now Everybody Dance Now This paper presents a simple method for "d.. 2023. 1. 9.
[Deep Learning] GAN(Generative Adversarial Network)이라는 것에 대하여. Deep Learning Network의 종류 중의 하나인 GAN에 대해서 정말 간략하게 설명하고자 합니다. GAN이란, Generative Adversarial Network의 약자로 적대적 생성 신경망이라고 합니다. 단어가 좀 애매하지만, 결론적으로는 Generator와 Discriminator의 어떠한 상호 적대적 관계를 통해 Real에 가까운 무언가를 생성해내는 모델이라 볼 수 있습니다. GAN을 활용한 몇 가지 사례는 다음과 같습니다. FaceBook에서 개발한 Real-eye-opener입니다. 이는 순간적으로 눈을 감은 채 찍힌 이미지에 가짜 눈을 생성하여 마치 눈을 뜨고 찍힌 것처럼 만드는 기술입니다. 다음은 CycleGAN이라고 하여 Image Translation에 적용한 사례입니다. .. 2023. 1. 9.
[TensorFlow Lite] TensorFlow를 Raspberry Pi에서 사용 보통 High Spec PC 또는 Server PC, Cloud에서 AI 프로그램을 구동하게 되는데, AI를 간단하게 Microprocessor 환경에서 구동하는 방법에 대해 다뤄보도록 하겠습니다. Raspberry Pi에 TensorFlow를 설치하기에 앞서, 다음 과정을 참고해 Raspberry Pi의 초기 Setting을 진행합니다. 다음 URL에서 Raspberry Pi imager Install File을 Download 합.. 2023. 1. 5.
[ZED2] ZED2 카메라를 Unity에서 사용하는 방법 이번 포스트에서는 ZED2 카메라를 Unity에서 사용하는 방법에 대해 다뤄보고자 합니다. ZED2 Camera는 Stereo Vision, Depth 추정, Object Detection, Motion Estimation, VR 등 여러 Computer Vision 관련 프로젝트에서 사용할 수 있는 카메라입니다. 다음 사이트에서 제품을 구매할 수 있습니다. ZED 2 - AI Stereo Camera The ZED 2 is a next-generation stereo camera that combines advanced depth sensing with AI, letting you build cutting-edge spatial intelligence applications. www.stereolabs.. 2023. 1. 5.
[Sound Spleeter] Deep Learning 기반 악기 소리 분리 기술 음성 데이터에서 각각의 악기 소리를 분리하는 기술에 대해 관심이 생겨 해당 기술에 대해 조사해 보았습니다. 이번 포스트는 조사한 두 가지에 대해 정리해 봅니다. 소리를 분리하는 프로그램을 검색해보았을 때, Spleeter와 Pixel Player라는 것을 찾을 수 있었습니다. 각각에 대한 내용은 다음과 같습니다. Spleeter URL : https://splitter.ai/ Splitter.ai - AI Audio Processing How does this work? Isolating instruments from music is now possible using AI, and Splitter is based on Deezer's open source research project Spleeter t.. 2023. 1. 5.
[DeepFake] DeepFake 기술과 간단한 예제 수행 요즘 심심치 않게 등장하는 기술이 하나 있습니다. 이는 바로 DeepFake라는 것입니다. 이 기술이 사회에 기여하는 순기능도 있지만 악용되는 사례도 많이 발생되고 있습니다. 특히 Deep Fake를 Google에 검색하면 검색 제한이 뜨기도 하니까 말이죠... 요번 포스트에서는 Deep Fake 기술에 대해 알아보고 이를 활용하기 위해, 이에 대해 간략하게 알아보고 정리해보도록 하겠습니다. 우선, DeepFake란 무엇일까요? DeepFake는 Deep Learning과 Fake의 혼성어로, 인공지능을 기반으로 한 인간 이미지 합성 기술을 의미합니다. GAN을 이용해 기존의 이미지나 영상을 원본이 되는 Image나 영상에 겹쳐서 만들어내는 기술이지요. 이는 영화나 방송계 등에서 이미 사망하거나 나이가 .. 2023. 1. 5.
반응형