Sobre mim

Meu nome é Heitor Felix

Sou formado em Ciência de Dados pela Uninter e atualmente trabalho como Engenheiro de Dados na NTT Data, construindo e otimizando pipelines de dados em Databricks para o setor financeiro. Tenho mais de 3 anos de experiência em Engenharia de Dados, com sólida atuação em arquiteturas de Data Lakehouse, desenvolvimento de soluções com IA (RAG/LLMs), e implementação de infraestrutura em nuvem. Possuo certificações Databricks (Associate e Professional) e Azure (DP-203, AZ-900, DP-900). Explore meus projetos abaixo e sinta-se à vontade para entrar em contato.

Experiência Profissional

Engenheiro de Dados na NTT Data

2025 - Atual

Construção e otimização de pipelines de dados em Databricks para clientes do setor financeiro. Atuação em projetos de migração para arquiteturas modernas de Data Lakehouse, garantindo performance, escalabilidade e governança de dados.

Engenheiro de Dados Pleno na Sapiensia Tecnologia

2022 - 2025

Liderança técnica em projetos de engenharia de dados, desenvolvendo pipelines críticos em Azure e Databricks. Implementação de soluções de IA com RAG e LLMs para automação de processos. Arquitetei estratégias de disaster recovery e infraestrutura serverless. Responsável por dashboards analíticos e automações com Python que impactaram diretamente decisões de negócio.

Estágio em Ciência de Dados na 027capital

2022 - 2022

Desenvolvimento de modelos de previsão de churn e pipelines de ingestão de dados utilizando Python e Google Cloud. Criação de software para processamento e análise de dados financeiros.

Projetos

Diagrama do projeto deputados

Pipeline de Dados da Câmara dos Deputados

Snowflake dbt Airflow AWS S3 Python

Pipeline de dados completo voltado para engenharia de dados, com ingestão automatizada de informações públicas de todos os deputados federais. Os dados incluem biografia, mandatos, despesas e atividade parlamentar, extraídos via API oficial. A arquitetura implementa uma abordagem moderna de ELT com Snowflake e dbt. A ingestão incremental diária é orquestrada com Airflow e armazenada no S3 em formato Parquet. Transformações seguem padrões robustos de modelagem dimensional (SCD Type 2). O projeto garante escalabilidade, automação e qualidade de dados ponta a ponta.

Ferramentas utilizadas

  • Python, Pandas e requests
  • Apache Airflow
  • Amazon S3 e SQS
  • Snowflake, Snowpipe
  • dbt Core
  • Streamlit e Jupyter notebook
Diagrama do projeto olist

Data Lakehouse: Olist

Databricks Delta Lake Spark Azure

Este projeto utilizou a arquitetura de Data Lakehouse no Databricks para gerenciar dados em camadas (Raw, Bronze, Silver e Gold) e simular cenários de ingestão com CDC (Change Data Capture). Os dados, oriundos de um dataset do Kaggle, foram enriquecidos para criar um pipeline completo, desde ingestão até análise de negócios. Implementei governança de dados com Unity Catalog, orquestração com Databricks Workflows, e integração contínua via GitHub Actions. O projeto consolidou habilidades em pipelines de dados, automação e análise com a arquitetura Medallion, otimizando o uso de dados para insights e aplicações analíticas.

Ferramentas utilizadas

  • Pandas
  • Git, GitHub, GitHub Actions
  • Azure Blob Storage, Parquet
  • Databricks, UnityCatalog
  • Spark, Delta Lake
  • Databricks Workflows
Diagrama do projeto de OCR

Chatbot com GPT-4 e Azure

GPT-4 RAG Azure OpenAI Azure AI Search

Neste projeto, explorei ferramentas de Inteligência Artificial do Azure para construir um chatbot especializado em Azure utilizando o GPT-4. Copiei os dados da documentação do Azure no GitHub para o Storage Account, utilizei o Azure AI Search para fazer embedding e indexação do conteúdo, e o Azure OpenAI para construção do chatbot em um App no Azure. O objetivo é fornecer respostas precisas e contextualizadas sobre serviços e funcionalidades do Azure.

Ferramentas utilizadas

  • Python
  • Azure Blob Storage
  • Azure AI Search
  • Azure OpenAI
  • Git, GitHub
  • Bicep template (IaC)

Projetos Antigos (2021 - 2022)

Data Challenge Stone 2022

Python Power BI Pandas

Fui semifinalista no Data Challenge Stone 2022. Nesse desafio da Stone, minha tarefa foi utilizar dados históricos de um programa de empréstimos desde 2019 até abril de 2022 de 14,7 mil clientes. O problema de negócio era relacionado ao acionamento dos clientes que estavam com pagamento atrasado. A pergunta a ser respondida foi: Qual a curva ideal de vezes que devemos acionar um cliente? Para respondê-la utilizei Python e Power BI para responder a pergunta com a análise de dados.

Ferramentas utilizadas

  • Git, GitHub, LSF Git files
  • Python, Pandas, Seaborn, Plotly
  • Power BI

Previsão de vendas

Scikit-Learn Python Heroku Flask

Usei Python para fazer um modelo de Machine Learning para prever as vendas de cada loja, das 3 mil cadastradas, nas próximas 6 semanas. O modelo foi colocado em produção e pode ser requisitado via API pelo Telegram, bastando apenas ter acesso à internet para utilizá-lo. O modelo teve previsão de 90% do valor real, possibilitando o CFO de tomar decisões baseadas no faturamento futuro de cada unidade da loja e assim, poder fazer investimentos sem prejuízos.

Ferramentas utilizadas

  • Git, GitHub
  • Python, Pandas, Seaborn, Boruta
  • Scikit-Learn e Scipy
  • Flask
  • Heroku Cloud
  • Telegram API

Classificação de clientes mais propensos a compra

Classification Python Heroku Flask

Usei Python para fazer um modelo de Machine Learning para fazer o ranqueamento dos clientes mais propensos a adquirir um novo produto (estratégia de cross sell). Com uma precisão de 33,5% para os 20.000 primeiros clientes da base, o time comercial é capaz de atingir os interessados com muito menos custo.

Ferramentas utilizadas

  • Git, GitHub
  • Python, Pandas, Seaborn, Extra Tree Classifier
  • Scikit-Learn, Scipy e Scikit-Plot
  • Flask
  • Heroku Cloud
  • Google Sheets API com Google Scripts

Fidelização de clientes com clusterização

Clustering Python Metabase

Usei Python para fazer um modelo de Machine Learning para encontrar os "Insiders", os melhores clientes da empresa. O objetivo desse projeto foi agrupar clientes com comportamentos parecidos para o time de negócios conseguir construir ações personalizada, baseadas nas características de cada cluster.

Ferramentas utilizadas

  • Git, GitHub
  • Python, Pandas, Seaborn, GMM
  • Scikit-Learn, Scipy e Yellowbrick
  • SQLite
  • Metabase
  • Papermill
  • Saiba mais
  • Análise de dados House Rocket

    Python Power BI Plotly

    Eu usei Python e Power BI para fazer uma análise exploratória de dados e com isso confirmei ou não algumas hipóteses sobre o negócio, tendo como resultado insights para melhor performance do negócio. A análise teve como objetivo aumentar a receita da empresa fictícia, House Rocket, que funciona com a compra e venda de imóveis, encontrando os melhores momentos para se comprar ou vender o imóvel.

    Ferramentas utilizadas

    • Git, GitHub
    • Python, Pandas, Seaborn, Plotly
    • Geopy API
    • Power BI
    • SQLite