Como Calcular a Importância das Features no XGBoost

A “importância de features” (feature importance) nos ajuda a identificar quais features nos seus dados são mais influentes quando se trata das previsões do seu modelo. Compreender a importância das features pode ajudar você a interpretar seu modelo de forma mais eficaz. Por exemplo: Você pode descobrir uma feature surpreendentemente importante que não esperava. Ou perceber que uma feature que você considerava crucial na verdade não está fazendo muita diferença....

July 3, 2024 · 5 min · Mario Filho

Usando XGBoost para Learning to Rank

XGBoost é uma ferramenta essencial para muitas aplicações Learning to Rank, desde a previsão de taxas de cliques até o aprimoramento de sistemas de recomendação. Usei muito ele quando era responsável pelo sistema de ranking de freelancers na Upwork. Neste tutorial, vamos explorar o potencial do XGBoost para suas tarefas de LTR. Vamos explorar várias funções objetivo, passos da preparação de dados e ilustrar como treinar seu modelo. Ao final deste guia, você estará totalmente equipado para construir seus próprios modelos LTR usando XGBoost....

July 2, 2024 · 10 min · Mario Filho

Regressão Multi-Output com XGBoost em Python

A regressão multi-output é uma tarefa de machine learning onde precisamos prever múltiplos valores para cada amostra de entrada. Imagine que você é um analista financeiro em uma empresa de investimentos. Seu trabalho é prever o desempenho futuro de várias ações para orientar decisões de investimento. Para cada ação, você quer prever vários alvos, como o retorno esperado, a volatilidade (risco) e a correlação com outras ações ou índices de mercado....

July 1, 2024 · 7 min · Mario Filho

Como Salvar e Carregar Modelos XGBoost em Python

Você passou incontáveis horas pesquisando, ajustando e treinando o modelo XGBoost perfeito. Seu modelo está performando excepcionalmente bem e você está pronto para comemorar. Mas espere, agora você precisa implementá-lo, e de repente, você se depara com um problema. Como salvar seu modelo para uso futuro? Neste artigo, vou ensiná-lo a salvar e carregar seus modelos XGBoost. Isso significa que você pode treinar seu modelo uma vez, salvá-lo e depois recarregá-lo sempre que precisar fazer previsões....

June 28, 2024 · 6 min · Mario Filho

Como Tunar Hiperparâmetros do XGBoost com Optuna

Encontrar os hiperparâmetros certos para o XGBoost pode parecer como procurar uma agulha em um palheiro. Acredite, eu já passei por isso. O XGBoost foi um modelo crucial para vencer pelo menos duas das competições do Kaggle das quais participei. Ao final deste tutorial, você estará equipado com as mesmas técnicas que usei para otimizar meus modelos e alcançar essas vitórias. Vamos começar! Instalando XGBoost e Optuna Instalar o XGBoost é fácil, basta executar:...

June 27, 2024 · 8 min · Mario Filho

Regressão com XGBoost em Python

Você está tendo dificuldades para fazer seus modelos de regressão performarem bem? Talvez você tenha tentado vários algoritmos, ajustado seus parâmetros e até coletado mais dados, mas as previsões do seu modelo ainda estão imprecisas. Neste tutorial, vou apresentar a você o XGBoost, um poderoso algoritmo de machine learning que, além de vencer competições no Kaggle, é muito utilizado em produção por empresas como Uber, Airbnb e Netflix. Vou guiá-lo passo a passo sobre como usar o XGBoost para tarefas de regressão em Python....

June 26, 2024 · 10 min · Mario Filho

Modelando Dados Desbalanceados Com XGBoost

Em machine learning, frequentemente nos deparamos com conjuntos de dados onde o número de observações em uma classe é significativamente maior do que na outra. Isso é conhecido como dados desbalanceados. Por exemplo, em um conjunto de dados de transações de cartão de crédito, o número de transações fraudulentas (classe positiva) é geralmente muito menor do que o número de transações legítimas (classe negativa). Este também é um exemplo de uma tarefa de classificação binária, que é um tipo comum de problema de machine learning....

June 25, 2024 · 7 min · Mario Filho

Trabalhando com Dados Categóricos no XGBoost

O XGBoost, apesar de ser uma biblioteca de gradient boosting poderosa e eficiente, é feito para trabalhar com dados numéricos. Isso significa que você precisa encontrar uma maneira de transformar dados categóricos em um formato que o XGBoost possa entender. Esse processo pode ser demorado e complexo, especialmente se você estiver lidando com um grande número de variáveis categóricas ou categorias. O problema se torna ainda mais desafiador quando você considera as armadilhas potenciais da transformação de variáveis categóricas....

June 24, 2024 · 5 min · Mario Filho

XGBoost para Classificação Binária em Python

A classificação binária é um tipo de tarefa de machine learning onde a saída é um resultado binário, ou seja, pertence a uma de duas classes. Por exemplo, um e-mail pode ser classificado como ‘spam’ ou ’não spam’, ou um tumor pode ser ‘maligno’ ou ‘benigno’. Quando você tem mais de duas classes, é chamado de classificação multiclasse. Podemos usar vários algoritmos para resolver estes tipos de problemas. Esses algoritmos incluem regressão logística, árvores de decisão, random forest, SVM e algoritmos de gradient boosting como o XGBoost....

June 22, 2024 · 9 min · Mario Filho

Classificação Multiclasse com XGBoost em Python

Classificação multiclasse é uma tarefa de machine learning onde o resultado pode pertencer a mais de duas classes ou categorias. Por exemplo, uma fruta pode ser classificada como ‘maçã’, ‘banana’ ou ‘cereja’. Ou um carro pode ser classificado como ‘sedan’, ‘SUV’ ou ‘caminhonete’. Assim como na classificação binária, podemos usar uma variedade de algoritmos para classificar os pontos de dados nessas múltiplas categorias. Esses algoritmos incluem regressão logística, árvores de decisão, random forests, SVMs e algoritmos de gradient boosting como XGBoost....

June 20, 2024 · 9 min · Mario Filho