📚 Sobre o Curso
Este curso oferece uma introdução abrangente à visão computacional moderna, combinando fundamentos teóricos com implementações práticas usando PyTorch. Você aprenderá desde os conceitos básicos até as técnicas mais avançadas, incluindo Foundation Models e aplicações práticas no mercado.
📋 Pré-requisitos
- Programação Python: Conhecimento intermediário em Python
- Matemática: Álgebra linear básica e cálculo
- Machine Learning: Conceitos básicos de ML (opcional)
- Ambiente: Jupyter Notebook ou ambiente Python configurado
🎯 Objetivos de Aprendizagem
- Compreender a evolução histórica da visão computacional
- Dominar fundamentos de processamento digital de imagem
- Implementar CNNs e arquiteturas clássicas
- Aplicar transfer learning em projetos práticos
- Resolver tarefas fundamentais: classificação, detecção e segmentação
- Utilizar OCR e reconhecimento de texto
- Implementar Vision Transformers e mecanismos de atenção
- Integrar Foundation Models (CLIP, GPT-4V, Gemini)
- Desenvolver projetos completos de visão computacional
Módulo 1: Introdução e História
Explore a evolução da visão computacional desde os anos 1960 até os Foundation Models modernos. Conheça os marcos históricos que moldaram a área.
Duração: 1h30
Acessar Módulo
Módulo 2: Processamento Digital de Imagem
Fundamentos matemáticos e técnicas básicas de processamento de imagem baseados em Gonzalez & Woods.
Duração: 2h
Acessar Módulo
Módulo 3: Deep Learning para Visão
CNNs, arquiteturas clássicas (AlexNet, VGG, ResNet) e implementações práticas com PyTorch.
Duração: 2h
Acessar Módulo
Módulo 4: Transfer Learning
Estratégias de transfer learning e aplicações práticas no mercado com modelos pré-treinados.
Duração: 1h30
Acessar Módulo
Módulo 5: Tarefas Fundamentais
Classificação, detecção de objetos e segmentação de imagens com arquiteturas específicas.
Duração: 2h
Acessar Módulo
Módulo 6: OCR e Reconhecimento de Texto
Técnicas de OCR, ferramentas modernas (Tesseract, EasyOCR) e pré-processamento.
Duração: 1h30
Acessar Módulo
Módulo 7: GANs e VAEs
Geração sintética de imagens com Generative Adversarial Networks e Variational Autoencoders.
Duração: 1h30
Acessar Módulo
Módulo 8: Vision Transformers
Mecanismos de atenção, arquitetura ViT e comparação com CNNs tradicionais.
Duração: 1h30
Acessar Módulo
Módulo 9: Foundation Models
CLIP, DALL-E, GPT-4V, Gemini e integração com APIs para análise multimodal.
Duração: 1h30
Acessar Módulo
Módulo 10: Atividade Final
Projeto completo integrando todas as técnicas aprendidas em um sistema multimodal.
Duração: 1h30
Acessar Módulo