Regressão Multi-Output com XGBoost em Python

A regressão multi-output é uma tarefa de machine learning onde precisamos prever múltiplos valores para cada amostra de entrada. Imagine que você é um analista financeiro em uma empresa de investimentos. Seu trabalho é prever o desempenho futuro de várias ações para orientar decisões de investimento. Para cada ação, você quer prever vários alvos, como o retorno esperado, a volatilidade (risco) e a correlação com outras ações ou índices de mercado....

July 1, 2024 · 7 min · Mario Filho

Como Salvar e Carregar Modelos XGBoost em Python

Você passou incontáveis horas pesquisando, ajustando e treinando o modelo XGBoost perfeito. Seu modelo está performando excepcionalmente bem e você está pronto para comemorar. Mas espere, agora você precisa implementá-lo, e de repente, você se depara com um problema. Como salvar seu modelo para uso futuro? Neste artigo, vou ensiná-lo a salvar e carregar seus modelos XGBoost. Isso significa que você pode treinar seu modelo uma vez, salvá-lo e depois recarregá-lo sempre que precisar fazer previsões....

June 28, 2024 · 6 min · Mario Filho

Como Tunar Hiperparâmetros do XGBoost com Optuna

Encontrar os hiperparâmetros certos para o XGBoost pode parecer como procurar uma agulha em um palheiro. Acredite, eu já passei por isso. O XGBoost foi um modelo crucial para vencer pelo menos duas das competições do Kaggle das quais participei. Ao final deste tutorial, você estará equipado com as mesmas técnicas que usei para otimizar meus modelos e alcançar essas vitórias. Vamos começar! Instalando XGBoost e Optuna Instalar o XGBoost é fácil, basta executar:...

June 27, 2024 · 8 min · Mario Filho

Regressão com XGBoost em Python

Você está tendo dificuldades para fazer seus modelos de regressão performarem bem? Talvez você tenha tentado vários algoritmos, ajustado seus parâmetros e até coletado mais dados, mas as previsões do seu modelo ainda estão imprecisas. Neste tutorial, vou apresentar a você o XGBoost, um poderoso algoritmo de machine learning que, além de vencer competições no Kaggle, é muito utilizado em produção por empresas como Uber, Airbnb e Netflix. Vou guiá-lo passo a passo sobre como usar o XGBoost para tarefas de regressão em Python....

June 26, 2024 · 10 min · Mario Filho

Modelando Dados Desbalanceados Com XGBoost

Em machine learning, frequentemente nos deparamos com conjuntos de dados onde o número de observações em uma classe é significativamente maior do que na outra. Isso é conhecido como dados desbalanceados. Por exemplo, em um conjunto de dados de transações de cartão de crédito, o número de transações fraudulentas (classe positiva) é geralmente muito menor do que o número de transações legítimas (classe negativa). Este também é um exemplo de uma tarefa de classificação binária, que é um tipo comum de problema de machine learning....

June 25, 2024 · 7 min · Mario Filho

Trabalhando com Dados Categóricos no XGBoost

O XGBoost, apesar de ser uma biblioteca de gradient boosting poderosa e eficiente, é feito para trabalhar com dados numéricos. Isso significa que você precisa encontrar uma maneira de transformar dados categóricos em um formato que o XGBoost possa entender. Esse processo pode ser demorado e complexo, especialmente se você estiver lidando com um grande número de variáveis categóricas ou categorias. O problema se torna ainda mais desafiador quando você considera as armadilhas potenciais da transformação de variáveis categóricas....

June 24, 2024 · 5 min · Mario Filho

XGBoost para Classificação Binária em Python

A classificação binária é um tipo de tarefa de machine learning onde a saída é um resultado binário, ou seja, pertence a uma de duas classes. Por exemplo, um e-mail pode ser classificado como ‘spam’ ou ’não spam’, ou um tumor pode ser ‘maligno’ ou ‘benigno’. Quando você tem mais de duas classes, é chamado de classificação multiclasse. Podemos usar vários algoritmos para resolver estes tipos de problemas. Esses algoritmos incluem regressão logística, árvores de decisão, random forest, SVM e algoritmos de gradient boosting como o XGBoost....

June 22, 2024 · 9 min · Mario Filho

Tunando Hiperparâmetros do CatBoost com Optuna

Você já se perguntou como tunar os hiperparâmetros do CatBoost para obter o melhor desempenho possível? O ajuste de hiperparâmetros é a chave para desbloquear todo o potencial do seu modelo. Mas olhando a documentação do CatBoost, você pode se sentir sobrecarregado com a quantidade de hiperparâmetros disponíveis. Isso acaba hoje! A Optuna é uma biblioteca de otimização de hiperparâmetros poderosa e fácil de usar que pode ajudar a encontrar os melhores hiperparâmetros para o seu modelo CatBoost....

June 21, 2024 · 7 min · Mario Filho

Classificação Multiclasse com XGBoost em Python

Classificação multiclasse é uma tarefa de machine learning onde o resultado pode pertencer a mais de duas classes ou categorias. Por exemplo, uma fruta pode ser classificada como ‘maçã’, ‘banana’ ou ‘cereja’. Ou um carro pode ser classificado como ‘sedan’, ‘SUV’ ou ‘caminhonete’. Assim como na classificação binária, podemos usar uma variedade de algoritmos para classificar os pontos de dados nessas múltiplas categorias. Esses algoritmos incluem regressão logística, árvores de decisão, random forests, SVMs e algoritmos de gradient boosting como XGBoost....

June 20, 2024 · 9 min · Mario Filho

Calculando Importância De Features Na Regressão Logística

Está enfrentando dificuldades para interpretar seu modelo de regressão logística e identificar quais features realmente influenciam na previsão da sua variável alvo? Determinar quais features estão influenciando as previsões do seu modelo pode ser frustrante, especialmente quando lidamos com um grande número de variáveis. A situação pode se complicar ainda mais com a presença de features correlacionadas. Neste tutorial, exploraremos diversos métodos para avaliar a importância das features em modelos de regressão logística, tanto para classificação binária quanto para classificação multiclasse....

June 19, 2024 · 10 min · Mario Filho