Can Gradient Boosting Learn Simple Arithmetic?

During a technical meeting a few weeks ago, we had a discussion about feature interactions, and how far we have to go with them so that we can capture possible relationships with our targets. Should we create (and select) arithmetic interactions between our features? A few years ago I remember visiting a website that showed how different models approximated these simple operations. It went from linear models to a complex Random Forest....

January 20, 2020 · 4 min · Mario Filho

Como Fazer Stacking de Modelos de Machine Learning

Quem acompanha competições sabe que uma das coisas mais importantes é saber juntar vários modelos para criar uma solução poderosa. Várias pessoas já me perguntaram, por e-mail ou nas apresentações que fiz, sobre ensembles. Este é um assunto importante não apenas para competições, mas também para casos reais onde se quer extrair o máximo possível de performance dos modelos. Ensembles são conjuntos de modelos que oferecem uma performance melhor do que cada modelo que o compõe....

December 1, 2019 · 12 min · Mario Filho

Como Criar um Modelo Simples para Prever Séries Temporais Usando Machine Learning em Python

Quando tratamos da previsão de séries temporais um modelo amplamente utilizado é a regressão linear. Apesar de simples, ele tem se mostrado bastante útil em aplicações reais. Uma forma muito simples de criar um modelo para este caso é usar os dados anteriores da própria variável de interesse para prever o atual. É possível criar modelos que buscam prever estas séries utilizando outros atributos, o que em alguns casos vai melhorar a precisão dos mesmos....

November 29, 2019 · 8 min · Mario Filho

As Métricas Mais Populares para Avaliar Modelos de Machine Learning

Durante o processo de criação de um modelo de machine learning nós precisamos medir a qualidade dele de acordo com o objetivo da tarefa. Existem funções matemáticas que nos ajudam a avaliar a capacidade de erro e acerto dos nossos modelos, e agora você conhecerá algumas das mais utilizadas. Neste artigo, usarei a palavra métrica para me referir a essas funções. Tão importante quanto saber escolher um bom modelo, é saber escolher a métrica correta para decidir qual é o melhor entre eles....

May 6, 2018 · 11 min · Mario Filho

How To Predict Multiple Time Series At Once With Scikit-Learn (With a Sales Forecasting Example)

You got a lot of time series data points and want to predict the next step (or steps). What should you do now? Train a model for each series? Is there a way to fit a model for all the series together? Which is better? I have seen many data scientists think about approaching this problem by creating a single model for each product. Although this is one of the possible solutions, it’s not likely to be the best....

January 1, 2018 · 14 min · Mario Filho

Como Usar Machine Learning Para Prever Inadimplência

Uma das áreas mais perturbadoras para os empresários, sejam grandes ou pequenos, é a inadimplência de alguns clientes. Principalmente num cenário de crise, esta é uma parte que deve ser bem gerenciada pelos administradores do negócio, ou pode levar o mesmo à falência. Imagine conseguir saber quais clientes vão deixar de pagar apenas observando o comportamento e as características de seus perfis. Tendo esta informação, o gestor pode ajustar seu risco, implementar ações e focar os seus esforços nos clientes com maior chance de causar problemas....

February 9, 2017 · 8 min · Mario Filho

Como Criar um Sistema de Recomendação de Produtos Usando Machine Learning

Imagine que para cada usuário registrado em seu site você pudesse recomendar produtos diferentes, personalizados para os gostos do cliente. Isso é possível usando sistemas de recomendação automática baseados em machine learning. Esta é uma das aplicações mais famosas de machine learning em comércio eletrônico. Quem nunca visitou o site de uma loja e dentro da página havia “outros produtos que podem te interessar”? Várias empresas já adotam este tipo de sistema, inclusive gigantes como a Amazon e Netflix....

February 1, 2017 · 5 min · Mario Filho

Como Detectar Registros Duplicados com Machine Learning

Em sites de classificados online é comum ver pessoas postando anúncios quase idênticos, mudando apenas uma palavra, ou as fotos, para tentar fazer com que mais usuários vejam o anúncio e respondam. Isso acaba sendo um problema para quem quer encontrar o melhor negócio, já que precisa tolerar vários anúncios irrelevantes até encontrar o que deseja. Uma das soluções é ter uma equipe de revisores para avaliar os anúncios, mas dá pra perceber que os custos se tornariam altos ao recebermos milhões de anúncios por dia....

September 15, 2016 · 4 min · Mario Filho

Como Vencemos 1300 Times no Kaggle

A Caterpillar é uma empresa que fabrica equipamentos industriais, como tratores e motores. Para manter suas operações, eles precisam comprar tubos com diversas especificações, de vários fornecedores diferentes, para usar em sua linha de produção. Cada fornecedor e produto possui um modelo de precificação diferente. A tarefa nesta competição era criar um modelo que fosse capaz de precificar os tubos utilizando dados históricos de fornecedores e características dos produtos. Tive o prazer de competir no time que venceu esta competição, ultrapassando mais de 1300 times de cientistas de dados do mundo todo....

October 5, 2015 · 7 min · Mario Filho

Como Usar Machine Learning Para Previsão de Vendas Com Dados Meteorológicos

O WalMart é uma rede com milhares de lojas em 27 países. É possível encontrar vários artigos sobre os mecanismos tecnológicos utilizados para gerenciar a logística e distribuição dos produtos. É a segunda vez que eles oferecem uma competição no Kaggle com a intenção de encontrar candidatos para entrevistas para vagas de cientistas de dados. Uma grande vantagem deste tipo de competição é termos acesso a dados de grandes companhias, e entender quais são os problemas que eles estão tentando resolver com modelos probabilísticos....

July 20, 2015 · 6 min · Mario Filho