Como Fazer Stacking de Modelos de Machine Learning

Quem acompanha competições sabe que uma das coisas mais importantes é saber juntar vários modelos para criar uma solução poderosa. Várias pessoas já me perguntaram, por e-mail ou nas apresentações que fiz, sobre ensembles. Este é um assunto importante não apenas para competições, mas também para casos reais onde se quer extrair o máximo possível de performance dos modelos. Ensembles são conjuntos de modelos que oferecem uma performance melhor do que cada modelo que o compõe....

December 1, 2019 · 12 min · Mario Filho

Como Detectar Registros Duplicados com Machine Learning

Em sites de classificados online é comum ver pessoas postando anúncios quase idênticos, mudando apenas uma palavra, ou as fotos, para tentar fazer com que mais usuários vejam o anúncio e respondam. Isso acaba sendo um problema para quem quer encontrar o melhor negócio, já que precisa tolerar vários anúncios irrelevantes até encontrar o que deseja. Uma das soluções é ter uma equipe de revisores para avaliar os anúncios, mas dá pra perceber que os custos se tornariam altos ao recebermos milhões de anúncios por dia....

September 15, 2016 · 4 min · Mario Filho

Como Vencemos 1300 Times no Kaggle

A Caterpillar é uma empresa que fabrica equipamentos industriais, como tratores e motores. Para manter suas operações, eles precisam comprar tubos com diversas especificações, de vários fornecedores diferentes, para usar em sua linha de produção. Cada fornecedor e produto possui um modelo de precificação diferente. A tarefa nesta competição era criar um modelo que fosse capaz de precificar os tubos utilizando dados históricos de fornecedores e características dos produtos. Tive o prazer de competir no time que venceu esta competição, ultrapassando mais de 1300 times de cientistas de dados do mundo todo....

October 5, 2015 · 7 min · Mario Filho

Como Usar Machine Learning Para Previsão de Vendas Com Dados Meteorológicos

O WalMart é uma rede com milhares de lojas em 27 países. É possível encontrar vários artigos sobre os mecanismos tecnológicos utilizados para gerenciar a logística e distribuição dos produtos. É a segunda vez que eles oferecem uma competição no Kaggle com a intenção de encontrar candidatos para entrevistas para vagas de cientistas de dados. Uma grande vantagem deste tipo de competição é termos acesso a dados de grandes companhias, e entender quais são os problemas que eles estão tentando resolver com modelos probabilísticos....

July 20, 2015 · 6 min · Mario Filho

Usando Machine Learning Para Identificar Motoristas Através de Dados GPS

Nos últimos anos a indústria de seguros tem buscado maneiras de aprimorar seus modelos usando Machine Learning. Uma delas é utilizar dados que vão além de um formulário preenchido pelo segurado para determinar o risco de acidentes. Um dos métodos utilizados é usar dados comportamentais do motorista, obtidos através de rastreamento via GPS. Desta maneira acredita-se ser possível capturar informações e padrões de perfil que vão além dos métodos tradicionais....

June 22, 2015 · 9 min · Mario Filho