본문 바로가기
  • 우당탕탕속의 잔잔함
반응형

Programming57

[Model] VNect과 XNect 이번 포스트는 Pose Estimation과 관련된 논문 중 하나인, VNect과 XNect이라는 것에 대해 다뤄보도록 하겠습니다. 해당 논문은 RGB 카메라를 통해 사람의 자세를 추정하는 방법을 다룬 것입니다. 우선, 각 논문은 다음 링크를 참조해 주세요. VNect (Real-Time 3D Human Pose Estimation With A Single RGB Camera) VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera We present the first real-time method to capture the full global 3D skeletal pose of a human in a stable, temporally c.. 2023. 3. 13.
[Code] MobileNet v1 이전, MobileNet v1에 대해서 알아보았습니다. 이번 포스트에서는 MobileNet v1을 코드로 구현하는 부분을 다룰 것입니다. 우선, MobileNet v1의 이론적인 부분에 대한 내용은 다음과 같습니다. [Model] MobileNet v1 개발자로서 스트레스를 많이 받는 것 중 하나는 수행 속도입니다. 특히, AI 그리고 Deep Learning에서의 처리 속도 개선은 어려운 작업 중 하나입니다. 이와 관련된 고민들을 통해 만들어진 MobileNet에 mj-thump-thump-story.tistory.com 위 페이지에서도 언급되었지만, 코드 생성을 위해 다시 언급해 봅니다. ㅎㅎ MobileNet v1은 다음과 같은 Architecture를 갖습니다. 위 표에서 몇가지 단어(?)들이 의.. 2023. 3. 8.
[Model] RefineDet 오늘 포스트는 Object Detection 분야에서 언급되는 Model 중의 하나인 RefineDet에 대해 작성하고자 합니다. 우선, RefineDet에 대한 논문은 다음과 같습니다. Single-Shot Refinement Neural Network for Object Detection For object detection, the two-stage approach (e.g., Faster R-CNN) has been achieving the highest accuracy, whereas the one-stage approach (e.g., SSD) has the advantage of high efficiency. To inherit the merits of both while overcoming.. 2023. 3. 6.
[Model] SSD (Single Shot Detector) 이번 포스트에서는 YOLO와 비슷한 계열이며, 많이 활용되는 모델 중 하나인 SSD에 대해 다뤄보고자 합니다. 우선, SSD에 대한 논문은 다음과 같습니다. SSD: Single Shot MultiBox Detector We present a method for detecting objects in images using a single deep neural network. Our approach, named SSD, discretizes the output space of bounding boxes into a set of default boxes over different aspect ratios and scales per feature map location. At arxiv.org SSD는 Sin.. 2023. 3. 2.
[Model] YOLO v1 Object Detection을 수행할 때, 많이 사용하는 Model 중 하나인 YOLO에 대해 작성해보고자 합니다. 우선, YOLO는 Joseph Redmon이 v1 ~ v3까지 개발을 진행하였고 이후 버전들은 꾸준히 다른 여러 개발자들에 의해 발표되고 있습니다. 각 버전에 대한 논문은 다음과 같습니다. (2023년 2월 기준으로는 YOLO v8까지 발표된 것 같습니다.) YOLO v1 You Only Look Once: Unified, Real-Time Object Detection We present YOLO, a new approach to object detection. Prior work on object detection repurposes classifiers to perform detec.. 2023. 2. 23.
[Model] R-CNN 이번 포스트는, Object Detection의 초기 Model인 R-CNN에 대해 간단히 정리해보고자 합니다. 우선, R-CNN에 대한 논문은 다음과 같습니다. Rich feature hierarchies for accurate object detection and semantic segmentation Object detection performance, as measured on the canonical PASCAL VOC dataset, has plateaued in the last few years. The best-performing methods are complex ensemble systems that typically combine multiple low-level image featu.. 2023. 2. 23.
[Model] FPN 이번 포스트에서는 FPN이라는 Network에 대해 정리해보고자 합니다. 우선, FPN에 대한 논문은 다음과 같습니다. Feature Pyramid Networks for Object Detection Feature pyramids are a basic component in recognition systems for detecting objects at different scales. But recent deep learning object detectors have avoided pyramid representations, in part because they are compute and memory intensive. In this paper, w arxiv.org 이미지에 포함되어 있는 다양한 크.. 2023. 2. 22.
[Model] RetinaNet 이번 포스트는 RetinaNet에 대해 정리해보고자 합니다. Object Detection 및 Keypoints Detection을 수행할 경우, ResNet과 비슷하게 많이 사용되는 Model이 RetinaNet이라고 생각됩니다. 해당 모델은 ResNet을 Backbone으로 하고 있으며 일부 더 나은 결과를 보이기도 합니다. 우선, RetinaNet에 대한 논문은 다음과 같습니다. Focal Loss for Dense Object Detection The highest accuracy object detectors to date are based on a two-stage approach popularized by R-CNN, where a classifier is applied to a sparse.. 2023. 2. 22.
[Model] MobileNet v1 개발자로서 스트레스를 많이 받는 것 중 하나는 수행 속도입니다. 특히, AI 그리고 Deep Learning에서의 처리 속도 개선은 어려운 작업 중 하나입니다. 이와 관련된 고민들을 통해 만들어진 MobileNet에 대해 간단하게 설명해보고자 합니다. 보통 개발자 입장에서 AI라고 하면 가장 먼저 떠오르는 것들 중 하나는 GPU일 것입니다. 2016년 이세돌과 대결했던 알파고는 GPU대신 48개의 TPU를 사용했고 판후이와의 대결에서는 1202개의 CPU와 176개의 GPU를 사용했다고 합니다. 즉, 엄청난 컴퓨팅 파워를 사용해야 쓸만한 뭔가가 나온다는 얘기가 되는 것이죠. 그러나 현실에서는 위와 같은 컴퓨팅 파워를 갖기에는 한계가 있습니다. 자동차, 드론, 스마트폰과 같은 환경에서는 GPU는커녕, 기껏.. 2023. 2. 21.
[C#] Redirection을 이용한 Communication 방법 이번 포스트는 Redirection을 이용하여, Process의 출력 스트림을 다른 프로그램이 읽을 수 있도록 하는 방법에 대해 다루고자 합니다. 먼저, Redirection에 대해 아주 짧게 설명하도록 하겠습니다. Redirection은 표준 스트림의 흐름을 바꿔주는 기법을 의미합니다. 이 기법은 주로 명령어 표준 출력을 화면이 아닌 파일에 쓸 때 많이 사용합니다. 보통 리눅스에서는 ls > files.txt와 같은 형태로 사용하곤 합니다. 그러나 이 기법을 조금 다른 방식으로 활용할 수 있습니다. 바로, 두 Process 간 통신을 수행할 때 활용하는 것입니다. 부모 프로그램이 어떤 자식 프로그램을 실행시키고 이 자식 프로그램이 출력하는 String Data를 계속 모니터링하는 것입니다. 자식 프로그.. 2023. 2. 17.
[OpenCV] Landmark를 이용한 Face Mapping 수행 Unity와 같은 게임 엔진이나 OpenGL과 같은 Graphics Library를 이용하지 않고, 어떠한 2D Image를 Camera Image에 Mapping 시키는 방법에 대해 다뤄보고자 합니다. 요즘 정말 흔하게 얼굴 이미지에 어떠한 이미지(Filter 등)를 덮어 씌워 웃긴 모습을 만들거나 하는 등의 작업을 많이 수행하고는 합니다. 이러한 작업은 보통, Face Landmark를 Detection 하여 해당 Position Data를 이용해 구현합니다. 이때, Face Landmark를 Detection 하고 해당 Data를 이용해 어떠한 연출을 부과할 때는 그래픽 관련 라이브러리나 Tool을 사용하곤 합니다. 그러나 이번 포스트에서는 순수 OpenCV만을 이용해 Image를 Mapping 해.. 2023. 2. 16.
[Pose Estimation] 2D/3D Pose Estimation에 관한 내용 Computer Vision과 관련된 AI, Deep Learning 분야에서 거의 필수적으로 다루는 주제가 있습니다. 바로 Pose Estimation인데요. 이번 포스트에서는 이 Pose Estimation에 관한 내용을 다루고자 합니다. Pose Estimation이란 무엇일까요? 사전적 정의로는 Computer Vision의 한 분야로 Object의 Position과 Orientation을 Detection하고자 하는 분야를 의미합니다. 좀 더 예시적으로 말한다면 위의 이미지와 같이 이미지 속에 위치한 사람의 Skeleton을 추정하는 것을 의미합니다. 보통 2D와 3D Pose Estimation으로 나누어 지는데, 2D는 결과값으로 각 신체부위의 X, Y 좌표를 반환하고, 3D는 결과 값으로 .. 2023. 2. 15.
[Model] Grad-CAM Model 내부에서 Object Detection등과 같은 연산을 진행할 때, 어느 곳이 활성화되어서 Detection을 수행하는지에 대해 확인할 수 있는 방안이 필요할 수도 있습니다. 이를 위한 Grid-CAM 부분을 정리하고자 합니다. CAM 학습 이미지와 이에 대한 Label만 있는 상황에서 DL Model이 Image의 어느 부분을 보았는지를 알고 싶을 때, 학습 이미지와 이에 대한 Bounding Box만 있는 상황에서 각 Pixel에 대한 Label을 알고 싶을 때가 있습니다. 위와 같은 상황은 학습할 이미지에 대한 정보보다 예측해야 할 정보가 더 디테일한 경우라고 할 수 있고, 이를 Weakly Supervised Learning이라고 하는데, 이는 CAM을 통해서 알 수 있습니다. CAM은.. 2023. 2. 15.
[DeepFake] Deep Nostalgia에 관한 내용 이번 포스트는 딥 노스텔지아라고 알려진, Deep Fake의 일종인 프로젝트에 대해 알아보고자 합니다. 딥 노스텔지아는 무엇인지, 어떤 구조를 가지고 있는지에 대해 정리해 보도록 하겠습니다. Deep Nostalgia라는 것이 널리 알려지게 된 계기는, MyHeritage사에서 정지된 이미지를 움직이는 이미지로 변환하는 서비스를 출시한 시점이라고 생각됩니다. 우선, 해당 서비스를 이용할 수 있는 링크는 다음과 같습니다. MyHeritage Deep Nostalgia™, deep learning technology to animate the faces in still family photos - MyHeritage www.myheritage.co.kr 회원가입을 진행하면 몇 가지 서비스를 제한된 범위 내에.. 2023. 2. 14.
[Model] ResNet Object Detection, Keypoint Detection, 이외의 Prediction 및 Classification 기능을 수행하는 AI를 개발할 때 많이 활용되는 구조인 ResNet에 대해 다뤄볼 예정입니다. ResNet으로 널리 알려진 이 구조는 2015년 MicroSoft에서 개발한 알고리즘으로 정식 게재된 논문 명은 “Deep Residual Learning for Image Recognition”입니다. 2014년 GoogLeNet이 22개의 층으로 구성된 것에 비해 ResNet은 152개의 층을 가진다. 7배 깊어진, 급속도로 깊어진 Model입니다. ResNet에 대한 논문은 다음 링크에서 확인할 수 있습니다. Deep Residual Learning for Image Recogni.. 2023. 2. 13.
반응형