Ideias para Feature Engineering em Dados Tabulares

Encontrei um caderno antigo com anotações de competições do Kaggle onde escrevi uma lista enorme de ideias de features de ML para dados tabulares nas capas para quando eu ficasse sem ideias. Pedi ao Gemini para transcrever e aqui está o resultado. Aproveite! Instruções Gerais Para Feature Engineering em Dados Tabulares Ver cada coluna e pensar: se eu agrupar nesta, que variável posso extrair das outras? Como serão as séries em cada grupo (visualizar, imaginar)?...

May 27, 2025 · 3 min · Mario Filho

Como Fazer Stacking de Modelos de Machine Learning

Quem acompanha competições sabe que uma das coisas mais importantes é saber juntar vários modelos para criar uma solução poderosa. Várias pessoas já me perguntaram, por e-mail ou nas apresentações que fiz, sobre ensembles. Este é um assunto importante não apenas para competições, mas também para casos reais onde se quer extrair o máximo possível de performance dos modelos. Ensembles são conjuntos de modelos que oferecem uma performance melhor do que cada modelo que o compõe....

December 1, 2019 · 12 min · Mario Filho

Como Detectar Registros Duplicados com Machine Learning

Em sites de classificados online é comum ver pessoas postando anúncios quase idênticos, mudando apenas uma palavra, ou as fotos, para tentar fazer com que mais usuários vejam o anúncio e respondam. Isso acaba sendo um problema para quem quer encontrar o melhor negócio, já que precisa tolerar vários anúncios irrelevantes até encontrar o que deseja. Uma das soluções é ter uma equipe de revisores para avaliar os anúncios, mas dá pra perceber que os custos se tornariam altos ao recebermos milhões de anúncios por dia....

September 15, 2016 · 4 min · Mario Filho

Como Vencemos 1300 Times no Kaggle

A Caterpillar é uma empresa que fabrica equipamentos industriais, como tratores e motores. Para manter suas operações, eles precisam comprar tubos com diversas especificações, de vários fornecedores diferentes, para usar em sua linha de produção. Cada fornecedor e produto possui um modelo de precificação diferente. A tarefa nesta competição era criar um modelo que fosse capaz de precificar os tubos utilizando dados históricos de fornecedores e características dos produtos. Tive o prazer de competir no time que venceu esta competição, ultrapassando mais de 1300 times de cientistas de dados do mundo todo....

October 5, 2015 · 7 min · Mario Filho

Como Usar Machine Learning Para Previsão de Vendas Com Dados Meteorológicos

O WalMart é uma rede com milhares de lojas em 27 países. É possível encontrar vários artigos sobre os mecanismos tecnológicos utilizados para gerenciar a logística e distribuição dos produtos. É a segunda vez que eles oferecem uma competição no Kaggle com a intenção de encontrar candidatos para entrevistas para vagas de cientistas de dados. Uma grande vantagem deste tipo de competição é termos acesso a dados de grandes companhias, e entender quais são os problemas que eles estão tentando resolver com modelos probabilísticos....

July 20, 2015 · 6 min · Mario Filho

Usando Machine Learning Para Identificar Motoristas Através de Dados GPS

Nos últimos anos a indústria de seguros tem buscado maneiras de aprimorar seus modelos usando Machine Learning. Uma delas é utilizar dados que vão além de um formulário preenchido pelo segurado para determinar o risco de acidentes. Um dos métodos utilizados é usar dados comportamentais do motorista, obtidos através de rastreamento via GPS. Desta maneira acredita-se ser possível capturar informações e padrões de perfil que vão além dos métodos tradicionais....

June 22, 2015 · 9 min · Mario Filho