Sobre mim

Meu nome é Heitor Felix

Sou formado em Ciência de Dados pela Uninter e atualmente trabalho como Engenheiro de Dados na NTT Data, construindo e otimizando pipelines de dados em Databricks para o setor financeiro. Tenho mais de 3 anos de experiência em Engenharia de Dados, com sólida atuação em arquiteturas de Data Lakehouse, desenvolvimento de soluções com IA (RAG/LLMs), e implementação de infraestrutura em nuvem. Possuo certificações Databricks (Associate e Professional) e Azure (DP-203, AZ-900, DP-900). Explore meus projetos abaixo e sinta-se à vontade para entrar em contato.

Experiência Profissional

Engenheiro de Dados na NTT Data

2025 - Atual

Construção e otimização de pipelines de dados em Databricks para clientes do setor financeiro. Atuação em projetos de migração para arquiteturas modernas de Data Lakehouse, garantindo performance, escalabilidade e governança de dados.

Engenheiro de Dados Pleno na Sapiensia Tecnologia

2022 - 2025

Liderança técnica em projetos de engenharia de dados, desenvolvendo pipelines críticos em Azure e Databricks. Implementação de soluções de IA com RAG e LLMs para automação de processos. Arquitetei estratégias de disaster recovery e infraestrutura serverless. Responsável por dashboards analíticos e automações com Python que impactaram diretamente decisões de negócio.

Estágio em Ciência de Dados na 027capital

2022 - 2022

Desenvolvimento de modelos de previsão de churn e pipelines de ingestão de dados utilizando Python e Google Cloud. Criação de software para processamento e análise de dados financeiros.

Projetos

Data Lakehouse Avançado: Olist Lakehouse 2.0

Databricks Delta Lake PySpark

Esta é a segunda versão do projeto Olist, agora implementando práticas modernas de engenharia de dados no Databricks Lakehouse com foco em pipelines declarativas, governança e processamento incremental em escala. A arquitetura segue o padrão Medallion (Bronze, Silver, Gold) utilizando Lakeflow Declarative Pipelines (ex-Delta Live Tables), com ingestão contínua via AutoLoader e tratamento de mudanças com AUTO CDC para dimensões SCD Type 1 e Type 2. O projeto incorpora Data Quality com expectations em todas as camadas, governança centralizada com Unity Catalog, rastreabilidade de dados (lineage) e separação de pipelines para dados transacionais append-only e entidades com mudanças históricas. Toda a infraestrutura e pipelines são implantados via Databricks Asset Bundles, com CI/CD automatizado, validação de código, testes e deploy entre ambientes de desenvolvimento, staging e produção.

Ferramentas utilizadas

Databricks Lakehouse & Delta Lake
Lakeflow Declarative Pipelines (DLT)
AutoLoader (ingestão incremental)
AUTO CDC (SCD Type 1 e Type 2)
Unity Catalog (governança e lineage)
Databricks Asset Bundles (IaC)
GitHub Actions (CI/CD)
SQL, PySpark

Saiba mais

Pipeline de Dados da Câmara dos Deputados

Snowflake dbt Airflow AWS S3 Python

Pipeline de dados completo voltado para engenharia de dados, com ingestão automatizada de informações públicas de todos os deputados federais. Os dados incluem biografia, mandatos, despesas e atividade parlamentar, extraídos via API oficial. A arquitetura implementa uma abordagem moderna de ELT com Snowflake e dbt. A ingestão incremental diária é orquestrada com Airflow e armazenada no S3 em formato Parquet. Transformações seguem padrões robustos de modelagem dimensional (SCD Type 2). O projeto garante escalabilidade, automação e qualidade de dados ponta a ponta.

Ferramentas utilizadas

Python, Pandas e requests
Apache Airflow
Amazon S3 e SQS
Snowflake, Snowpipe
dbt Core
Streamlit e Jupyter notebook

Data Lakehouse: Olist

Databricks Delta Lake Spark Azure

Este projeto utilizou a arquitetura de Data Lakehouse no Databricks para gerenciar dados em camadas (Raw, Bronze, Silver e Gold) e simular cenários de ingestão com CDC (Change Data Capture). Os dados, oriundos de um dataset do Kaggle, foram enriquecidos para criar um pipeline completo, desde ingestão até análise de negócios. Implementei governança de dados com Unity Catalog, orquestração com Databricks Workflows, e integração contínua via GitHub Actions. O projeto consolidou habilidades em pipelines de dados, automação e análise com a arquitetura Medallion, otimizando o uso de dados para insights e aplicações analíticas.

Ferramentas utilizadas

Pandas
Git, GitHub, GitHub Actions
Azure Blob Storage, Parquet
Databricks, UnityCatalog
Spark, Delta Lake
Databricks Workflows

Saiba mais

Chatbot com GPT-4 e Azure

GPT-4 RAG Azure OpenAI Azure AI Search

Neste projeto, explorei ferramentas de Inteligência Artificial do Azure para construir um chatbot especializado em Azure utilizando o GPT-4. Copiei os dados da documentação do Azure no GitHub para o Storage Account, utilizei o Azure AI Search para fazer embedding e indexação do conteúdo, e o Azure OpenAI para construção do chatbot em um App no Azure. O objetivo é fornecer respostas precisas e contextualizadas sobre serviços e funcionalidades do Azure.

Ferramentas utilizadas

Python
Azure Blob Storage
Azure AI Search
Azure OpenAI
Git, GitHub
Bicep template (IaC)

Saiba mais

Projetos Antigos (2021 - 2022)

Data Challenge Stone 2022

Python Power BI Pandas

Fui semifinalista no Data Challenge Stone 2022. Nesse desafio da Stone, minha tarefa foi utilizar dados históricos de um programa de empréstimos desde 2019 até abril de 2022 de 14,7 mil clientes. O problema de negócio era relacionado ao acionamento dos clientes que estavam com pagamento atrasado. A pergunta a ser respondida foi: Qual a curva ideal de vezes que devemos acionar um cliente? Para respondê-la utilizei Python e Power BI para responder a pergunta com a análise de dados.

Ferramentas utilizadas

Git, GitHub, LSF Git files
Python, Pandas, Seaborn, Plotly
Power BI

Previsão de vendas

Scikit-Learn Python Heroku Flask

Usei Python para fazer um modelo de Machine Learning para prever as vendas de cada loja, das 3 mil cadastradas, nas próximas 6 semanas. O modelo foi colocado em produção e pode ser requisitado via API pelo Telegram, bastando apenas ter acesso à internet para utilizá-lo. O modelo teve previsão de 90% do valor real, possibilitando o CFO de tomar decisões baseadas no faturamento futuro de cada unidade da loja e assim, poder fazer investimentos sem prejuízos.

Ferramentas utilizadas

Git, GitHub
Python, Pandas, Seaborn, Boruta
Scikit-Learn e Scipy
Flask
Heroku Cloud
Telegram API

Saiba mais

Classificação de clientes mais propensos a compra

Classification Python Heroku Flask

Usei Python para fazer um modelo de Machine Learning para fazer o ranqueamento dos clientes mais propensos a adquirir um novo produto (estratégia de cross sell). Com uma precisão de 33,5% para os 20.000 primeiros clientes da base, o time comercial é capaz de atingir os interessados com muito menos custo.

Ferramentas utilizadas

Git, GitHub
Python, Pandas, Seaborn, Extra Tree Classifier
Scikit-Learn, Scipy e Scikit-Plot
Flask
Heroku Cloud
Google Sheets API com Google Scripts

Saiba mais

Fidelização de clientes com clusterização

Clustering Python Metabase

Usei Python para fazer um modelo de Machine Learning para encontrar os "Insiders", os melhores clientes da empresa. O objetivo desse projeto foi agrupar clientes com comportamentos parecidos para o time de negócios conseguir construir ações personalizada, baseadas nas características de cada cluster.

Ferramentas utilizadas

Git, GitHub
Python, Pandas, Seaborn, GMM
Scikit-Learn, Scipy e Yellowbrick
SQLite
Metabase
Papermill

Saiba mais

Análise de dados House Rocket

Python Power BI Plotly

Eu usei Python e Power BI para fazer uma análise exploratória de dados e com isso confirmei ou não algumas hipóteses sobre o negócio, tendo como resultado insights para melhor performance do negócio. A análise teve como objetivo aumentar a receita da empresa fictícia, House Rocket, que funciona com a compra e venda de imóveis, encontrando os melhores momentos para se comprar ou vender o imóvel.

Ferramentas utilizadas

Git, GitHub
Python, Pandas, Seaborn, Plotly
Geopy API
Power BI
SQLite