Preciso Normalizar Ou Escalonar os Dados para Árvores de Decisão?

Em geral, não. Árvores de decisão não são sensíveis a feature scaling (escalonamento) porque suas divisões não mudam com transformações monotônicas dos dados. A normalização também não é necessária, mas pode mudar seus resultados porque não é monotônica, como veremos mais adiante. Dito isso, a implementação numérica de uma biblioteca específica pode fazer com que as previsões da sua árvore de decisão mudem se você não escalonar ou normalizar seus dados....

July 12, 2024 · 5 min · Mario Filho

Como Usar O GPT Via API Da OpenAI Em Python

O GPT (Generative Pre-trained Transformer) é uma tecnologia de ponta no campo do processamento de linguagem natural (NLP). Desenvolvido pela OpenAI, o GPT utiliza aprendizado profundo para compreender e gerar texto de forma contextual e coerente. A capacidade do GPT de entender nuances linguísticas, responder a perguntas complexas e até mesmo gerar conteúdo criativo o torna uma ferramenta valiosa para uma ampla gama de aplicações. Você deve conhecer a interface do ChatGPT, que é um exemplo de como o GPT pode ser usado para criar assistentes virtuais, mas a OpenAI também oferece uma API para que você possa integrar o GPT em seus projetos de maneira programática....

July 11, 2024 · 15 min · Mario Filho

Calculando Importância de Features em Random Forests

Interpretar e identificar as features cruciais em modelos de machine learning pode ser um desafio e tanto, especialmente ao lidar com modelos black-box. Neste tutorial, vamos mergulhar fundo no entendimento da importância global e local das features em Random Forests. Exploraremos várias técnicas e ferramentas para analisar e interpretar essas importâncias, tornando nossos modelos mais transparentes e confiáveis. Para ilustrar as técnicas, utilizaremos o conjunto de dados “Red Wine Quality” do Repositório de Machine Learning da UCI....

July 10, 2024 · 11 min · Mario Filho

Chain-of-Thought Prompting: O Que é e Como Usar?

Chain-of-Thought (CoT) Prompting é uma técnica avançada de engenharia de prompts que incentiva o modelo a “pensar em voz alta”, decompondo problemas em etapas intermediárias antes de chegar a uma conclusão. Isso não apenas melhora a precisão das respostas, mas também torna o processo de “raciocínio” do modelo mais transparente e interpretável. Depois do sucesso demonstrado pelo CoT, as empresas que treinam LLMs começaram a incluir exemplos de raciocínio passo a passo em seus dados, justamente para melhorar a interpretabilidade e a precisão dos modelos....

July 10, 2024 · 3 min · Mario Filho

Como Tunar Hiperparâmetros do LightGBM com Optuna

Como um Grandmaster do Kaggle, eu adoro trabalhar com o LightGBM, uma biblioteca fantástica de machine learning que se tornou uma das minhas ferramentas preferidas. Eu sempre foco em tunar os hiperparâmetros do modelo antes de mergulhar na engenharia de features. Ao ajustar seus hiperparâmetros primeiro, você vai espremer cada gota de desempenho do seu modelo com os dados que já tem. Depois que você tiver os hiperparâmetros ideais, você passa para a engenharia de features....

July 8, 2024 · 9 min · Mario Filho

Tutorial: CatBoost Para Classificação Binária Em Python

Muitas pessoas acham a configuração inicial do CatBoost um pouco intimidante. Talvez você tenha ouvido falar sobre sua capacidade de trabalhar com features categóricas sem nenhum pré-processamento, mas não sabe por onde começar. Neste tutorial passo a passo, vou simplificar as coisas para você. Afinal, esta é apenas mais uma biblioteca de gradient boosting para ter em sua caixa de ferramentas. Vou guiá-lo pelo processo de instalação do CatBoost, carregamento dos seus dados e configuração de um classificador CatBoost....

July 6, 2024 · 7 min · Mario Filho

Como Calcular a Importância das Features no XGBoost

A “importância de features” (feature importance) nos ajuda a identificar quais features nos seus dados são mais influentes quando se trata das previsões do seu modelo. Compreender a importância das features pode ajudar você a interpretar seu modelo de forma mais eficaz. Por exemplo: Você pode descobrir uma feature surpreendentemente importante que não esperava. Ou perceber que uma feature que você considerava crucial na verdade não está fazendo muita diferença....

July 3, 2024 · 5 min · Mario Filho

Usando XGBoost para Learning to Rank

XGBoost é uma ferramenta essencial para muitas aplicações Learning to Rank, desde a previsão de taxas de cliques até o aprimoramento de sistemas de recomendação. Usei muito ele quando era responsável pelo sistema de ranking de freelancers na Upwork. Neste tutorial, vamos explorar o potencial do XGBoost para suas tarefas de LTR. Vamos explorar várias funções objetivo, passos da preparação de dados e ilustrar como treinar seu modelo. Ao final deste guia, você estará totalmente equipado para construir seus próprios modelos LTR usando XGBoost....

July 2, 2024 · 10 min · Mario Filho

Regressão Multi-Output com XGBoost em Python

A regressão multi-output é uma tarefa de machine learning onde precisamos prever múltiplos valores para cada amostra de entrada. Imagine que você é um analista financeiro em uma empresa de investimentos. Seu trabalho é prever o desempenho futuro de várias ações para orientar decisões de investimento. Para cada ação, você quer prever vários alvos, como o retorno esperado, a volatilidade (risco) e a correlação com outras ações ou índices de mercado....

July 1, 2024 · 7 min · Mario Filho

Como Salvar e Carregar Modelos XGBoost em Python

Você passou incontáveis horas pesquisando, ajustando e treinando o modelo XGBoost perfeito. Seu modelo está performando excepcionalmente bem e você está pronto para comemorar. Mas espere, agora você precisa implementá-lo, e de repente, você se depara com um problema. Como salvar seu modelo para uso futuro? Neste artigo, vou ensiná-lo a salvar e carregar seus modelos XGBoost. Isso significa que você pode treinar seu modelo uma vez, salvá-lo e depois recarregá-lo sempre que precisar fazer previsões....

June 28, 2024 · 6 min · Mario Filho