Sobre mim

Meu nome é Heitor Felix

Sou formado em Ciência de Dados na Uninter e trabalho como Engenheiro de Dados Pleno na Sapiensia Tecnologia. Abaixo você vai conhecer quais ferramentas e habilidades que possuo para resolver problemas através de Ciência de Dados, Análise de Dados, Engenharia de Dados, Inteligência Artificial e Infraestrutura, além de algumas experiências profissionais. Sinta-se à vontade para entrar em contato através dos links no final da página.

Habilidades

Engenharia e Ciência de Dados:

Python para engenharia e ciência de dados
Criação de features avançadas com pandas
Bancos de dados: SQL Server, PostgreSQL, Google Big Query e Snowflake
Pipeline de dados com Azure Data Factory e Databricks
dbt Core
Orchestration with Apache Airflow
Elasticsearch

Machine Learning e IA:

Modelos de regressão, classificação e clusterização
Criação de LLMs customizadas com RAG
Deployment automatizado em diferentes ambientes (DevOps e DataOps)
Fundamentos de estatística e matemática

Visualização e Comunicação de Dados:

Power BI, Tableau, Metabase
Python: Matplotlib, Seaborn, Plotly
Excel Avançado
Dashboards Streamlit

Infraestrutura e Cloud Computing:

Sólida experiência com Azure (certificações AZ-900, DP-900, DP-203)
Experiência com AWS
Infraestrutura como Código (IaC) com Bicep template
Criação de APIs em Python e deployment serverless
CI/CD em diferentes ambientes com Azure DevOps e GitHub Actions

Certificações

Microsoft Certified: Azure Data Engineer Associate

DP-203

Microsoft Certified: Azure Fundamentals

AZ-900

Microsoft Certified: Azure Data Fundamentals

DP-900

Astronomer Certification for Apache Airflow 3 Fundamentals

Astronomer

Experiência Profissional

Engenheiro de Dados Pleno na Sapiensia

Implementação de pipelines de dados, dashboards, LLMs especializadas e automações com Python na arquitetura Serverless. Experiência em Azure, incluindo planos de recuperação de desastres e certificações.

Estágio em Ciência de Dados na 027capital

Desenvolvimento de software de processamento de dados, modelos de previsão de churn e pipelines de ingestão de dados utilizando Python e Google Cloud.

Projetos

Pipeline de Dados da Câmara dos Deputados

Pipeline de dados completo voltado para engenharia de dados, com ingestão automatizada de informações públicas de todos os deputados federais. Os dados incluem biografia, mandatos, despesas e atividade parlamentar, extraídos via API oficial. A arquitetura implementa uma abordagem moderna de ELT com Snowflake e dbt. A ingestão incremental diária é orquestrada com Airflow e armazenada no S3 em formato Parquet. Transformações seguem padrões robustos de modelagem dimensional (SCD Type 2). O projeto garante escalabilidade, automação e qualidade de dados ponta a ponta.

Ferramentas utilizadas

Python, Pandas e requests
Apache Airflow
Amazon S3 e SQS
Snowflake, Snowpipe
dbt Core
Streamlit e Jupyter notebook

Data Lakehouse: Olist

Este projeto utilizou a arquitetura de Data Lakehouse no Databricks para gerenciar dados em camadas (Raw, Bronze, Silver e Gold) e simular cenários de ingestão com CDC (Change Data Capture). Os dados, oriundos de um dataset do Kaggle, foram enriquecidos para criar um pipeline completo, desde ingestão até análise de negócios. Implementei governança de dados com Unity Catalog, orquestração com Databricks Workflows, e integração contínua via GitHub Actions. O projeto consolidou habilidades em pipelines de dados, automação e análise com a arquitetura Medallion, otimizando o uso de dados para insights e aplicações analíticas.

Ferramentas utilizadas

Pandas
Git, GitHub, GitHub Actions
Azure Blob Storage, Parquet
Databricks, UnityCatalog
Spark, Delta Lake
Databricks Workflows

Saiba mais

Chatbot com GPT-4 e Azure

Neste projeto, explorei ferramentas de Inteligência Artificial do Azure para construir um chatbot especializado em Azure utilizando o GPT-4. Copiei os dados da documentação do Azure no GitHub para o Storage Account, utilizei o Azure AI Search para fazer embedding e indexação do conteúdo, e o Azure OpenAI para construção do chatbot em um App no Azure. O objetivo é fornecer respostas precisas e contextualizadas sobre serviços e funcionalidades do Azure.

Ferramentas utilizadas

Python
Azure Blob Storage
Azure AI Search
Azure OpenAI
Git, GitHub
Bicep template (IaC)

Saiba mais

IN PROGRESS: Bot no Telegram: Reconhecimento de texto (Computer Vision)

Neste projeto, explorei ferramentas de Inteligência Artificial do Azure para reconhecimento óptico de caracteres (OCR), como o Azure Computer Vision e o Azure AI Document Intelligence. Utilizei Python para desenvolver um bot no Telegram que processa imagens enviadas pelo usuário, retornando o texto extraído e o intervalo de confiança para cada palavra reconhecida. Iimplementei configurações dinâmicas no bot, permitindo ajustar parâmetros como o nível de confiança mínima para aceitar palavras e a aplicação de pré-processamento. Esse projeto demonstra habilidades em integração com APIs, tratamento de imagens e criação de interfaces interativas com bots.

Ferramentas utilizadas

Python
Telegram API
Azure Computer Vision
Azure AI Document Intelligence
Git, GitHub
Bicep template (IaC)

Saiba mais

Projetos Antigos (2021 - 2022)

Data Challenge Stone 2022

Fui semifinalista no Data Challenge Stone 2022. Nesse desafio da Stone, minha tarefa foi utilizar dados históricos de um programa de empréstimos desde 2019 até abril de 2022 de 14,7 mil clientes. O problema de negócio era relacionado ao acionamento dos clientes que estavam com pagamento atrasado. A pergunta a ser respondida foi: Qual a curva ideal de vezes que devemos acionar um cliente? Para respondê-la utilizei Python e Power BI para responder a pergunta com a análise de dados.

Ferramentas utilizadas

Git, GitHub, LSF Git files
Python, Pandas, Seaborn, Plotly
Power BI

Previsão de vendas

Usei Python para fazer um modelo de Machine Learning para prever as vendas de cada loja, das 3 mil cadastradas, nas próximas 6 semanas. O modelo foi colocado em produção e pode ser requisitado via API pelo Telegram, bastando apenas ter acesso à internet para utilizá-lo. O modelo teve previsão de 90% do valor real, possibilitando o CFO de tomar decisões baseadas no faturamento futuro de cada unidade da loja e assim, poder fazer investimentos sem prejuízos.

Ferramentas utilizadas

Git, GitHub
Python, Pandas, Seaborn, Boruta
Scikit-Learn e Scipy
Flask
Heroku Cloud
Telegram API

Saiba mais

Classificação de clientes mais propensos a compra

Usei Python para fazer um modelo de Machine Learning para fazer o ranqueamento dos clientes mais propensos a adquirir um novo produto (estratégia de cross sell). Com uma precisão de 33,5% para os 20.000 primeiros clientes da base, o time comercial é capaz de atingir os interessados com muito menos custo.

Ferramentas utilizadas

Git, GitHub
Python, Pandas, Seaborn, Extra Tree Classifier
Scikit-Learn, Scipy e Scikit-Plot
Flask
Heroku Cloud
Google Sheets API com Google Scripts

Saiba mais

Fidelização de clientes com clusterização

Usei Python para fazer um modelo de Machine Learning para encontrar os "Insiders", os melhores clientes da empresa. O objetivo desse projeto foi agrupar clientes com comportamentos parecidos para o time de negócios conseguir construir ações personalizada, baseadas nas características de cada cluster.

Ferramentas utilizadas

Git, GitHub
Python, Pandas, Seaborn, GMM
Scikit-Learn, Scipy e Yellowbrick
SQLite
Metabase
Papermill

Saiba mais

Análise de dados House Rocket

Eu usei Python e Power BI para fazer uma análise exploratória de dados e com isso confirmei ou não algumas hipóteses sobre o negócio, tendo como resultado insights para melhor performance do negócio. A análise teve como objetivo aumentar a receita da empresa fictícia, House Rocket, que funciona com a compra e venda de imóveis, encontrando os melhores momentos para se comprar ou vender o imóvel.

Ferramentas utilizadas

Git, GitHub
Python, Pandas, Seaborn, Plotly
Geopy API
Power BI
SQLite

Olá, seja muito bem vindo(a) ao meu portfólio de projetos

Sobre mim

Meu nome é Heitor Felix

Habilidades

Engenharia e Ciência de Dados:

Machine Learning e IA:

Visualização e Comunicação de Dados:

Infraestrutura e Cloud Computing:

Certificações

Microsoft Certified: Azure Data Engineer Associate

Microsoft Certified: Azure Fundamentals

Microsoft Certified: Azure Data Fundamentals

Astronomer Certification for Apache Airflow 3 Fundamentals

Experiência Profissional

Engenheiro de Dados Pleno na Sapiensia

Estágio em Ciência de Dados na 027capital

Projetos

Pipeline de Dados da Câmara dos Deputados

Ferramentas utilizadas

Data Lakehouse: Olist

Ferramentas utilizadas

Chatbot com GPT-4 e Azure

Ferramentas utilizadas

IN PROGRESS: Bot no Telegram: Reconhecimento de texto (Computer Vision)

Ferramentas utilizadas

Projetos Antigos (2021 - 2022)

Data Challenge Stone 2022

Ferramentas utilizadas

Previsão de vendas

Ferramentas utilizadas

Classificação de clientes mais propensos a compra

Ferramentas utilizadas

Fidelização de clientes com clusterização

Ferramentas utilizadas

Análise de dados House Rocket

Ferramentas utilizadas

Entre em contato