Muita gente acha que a matemática para data science é um bicho de sete cabeças.

Alguns acadêmicos dizem que você precisa passar 4 anos numa faculdade de matemática antes de aprender data science, mas isso não é verdade.

Eu e vários colegas de profissão, que também escolheram estudar por conta própria, mesmo sem ter feito uma faculdade de exatas, somos a prova disso.

Eu fui fazer faculdade de Direito para ter certeza que nunca mais ia ver matemática na vida (ah, a ironia)!

Tenho uma colega que era maquiadora, outro que era bancário, e outro que era veterinário!

No fim do artigo eu te conto minha história para você ver que, se eu consegui aprender, você pode conseguir também!

Então basta você seguir o plano que eu vou te mostrar aqui para conseguir aprender toda a matemática necessária para entender os algoritmos.

O foco aqui é para o cientista de dados que quer trabalhar com machine learning.

Se seu objetivo é trabalhar com análise descritiva (visualizações, PowerBI) em vez de análise preditiva e prescritiva (machine learning), estudar apenas a parte de estatística já basta.

Ah, e os recursos que eu escolhi (e usei) são gratuitos!

Você não precisa parar de estudar as outras áreas de data science enquanto estuda matemática.

Você pode continuar estudando Python e até a parte de código de machine learning.

É até bom que você faça isso para se sentir mais motivado ao encontrar algum conceito matemático aplicado a um projeto real.

Índice

Onde Estudar Matemática?

O melhor site gratuito que eu conheço para estudar matemática é a Khan Academy.

Ela é uma instituição sem fins lucrativos que oferece uma variedade de recursos para te ajudar a aprender matemática de uma forma interativa e envolvente.

As aulas de matemática são divididas em vídeos de 5 a 15 minutos que podem ser acessadas de qualquer lugar, a qualquer momento, desde que você tenha acesso à internet.

Ou seja, dá pra encaixar mesmo numa agenda ocupada.

Além das vídeo-aulas você conta com exercícios interativos que são essenciais para solidificar as suas novas habilidade matemáticas e receber feedback imediato de quais tópicos você deve reforçar.

Eles também oferecem um sistema de pontos que te ajuda a ver seu progresso e se manter mais motivado a aprender.

Quais Áreas da Matemática São Importantes Para Data Science?

É normal se sentir assustado ao ver a quantidade de aulas e conteúdo, mas é só ir focando em uma aula, um passo de cada vez, que vai dar tudo certo.

No final do artigo eu te dou dicas de como me organizei para estudar sem entrar em desespero.

Se tornar cientista de dados é um processo desafiador, mas muito gratificante!

Estatística e Probabilidade

Essas aulas vão te ajudar a desenvolver as habilidades fundamentais de estatística e probabilidade necessárias para a data science.

Elas incluem, dentre outros tópicos:

  • Análise de dados categóricos: análise de uma variável categórica, tabelas de contingência e distribuições em tabelas de contingência.
  • Exibição e comparação de dados quantitativos: como exibir dados quantitativos com gráficos, descrição e comparação de distribuições.
  • Exploração de dados quantitativos: medidas de centralidade em dados quantitativos, mais sobre média e mediana, faixa interquartil, variância e desvio-padrão de uma população e uma amostra, diagramas de caixa e outras medidas de dispersão.
  • Modelagem de distribuições de dados: percentis, valores z, efeitos de transformações lineares, curvas de densidade, distribuições.
  • Exploração de dados numéricos bivariados: introdução aos diagramas de dispersão, coeficientes de correlação, equações de regressão de mínimos quadrados e mais sobre regressão.
  • Estudos e experimentos: estudos observacionais e de amostragem, métodos de amostragem e tipos de estudos (experimental versus observacional).
  • Probabilidade: probabilidade teórica básica, probabilidade usando espaços amostrais, eventos independentes, probabilidade condicional, regras de soma e de produto.

Lembrando que, se seu plano é focar em análise descritiva, pode parar por aqui.

Se você quer trabalhar com machine learning em análises preditivas e prescritivas, continue.

Pré-Cálculo

Esta parte vai te preparar para entender Cálculo Diferencial, Integral e Álgebra Linear que são os tópicos da matemática por trás de como os algoritmos de machine learning aprendem.

Nessas aulas você aprenderá:

  • Funções compostas e inversas: conceitos de funções compostas e inversas, modelagem com funções compostas
  • Trigonometria: valores trigonométricos de ângulos notáveis no primeiro quadrante, identidades trigonométricas no círculo trigonométrico, funções trigonométricas inversas, leis dos senos e cossenos, resolução de triângulos gerais, equações senoidais, modelos senoidais, identidades trigonométricas de soma de ângulos, uso de identidades trigonométricas
  • Números complexos: plano complexo, distância e ponto médio de números complexos, conjugados complexos e divisão de números complexos, identidades com números complexos, módulo (valor absoluto) e argumento (ângulo) de números complexos, forma polar de números complexos, multiplicação de números complexos em um gráfico, multiplicação e divisão de números complexos na forma polar, Teorema Fundamental da Álgebra
  • Funções racionais: simplificação, descontinuidade, gráficos e representação com funções racionais, multiplicação, divisão, soma e subtração de expressões racionais
  • Seções cônicas: introdução às seções cônicas, centro e raios de uma elipse, focos de uma elipse, introdução às hipérboles, focos de uma hipérbole, hipérboles com centro fora da origem
  • Vetores: introdução aos vetores, componentes vetoriais, magnitude de vetores, multiplicação escalar, soma e subtração de vetores, produto escalar, produto vetorial, resolução de problemas envolvendo vetores
  • Cálculo: definição e propriedades de limites, cálculo de limites usando regras, limites infinitos, continuidade, derivadas, regras de derivada, aplicações de derivadas, regras de integração e aplicações de integrais.

Cálculo Diferencial

Para treinar um modelo de machine learning, um método comum é a “descida de gradiente”.

Isso é basicamente caminhar na derivada de uma função.

O cálculo diferencial é a área da matemática que nos dá as ferramentas para encontrar a derivada e otimizar os modelos.

Você aprenderá:

  • Limites e continuidade: os limites são usados para entender o comportamento de uma função quando seu valor de entrada se aproxima de um determinado ponto.
  • Derivadas: a derivada é a medida da taxa de variação de uma função em um ponto. Existem regras básicas para derivar funções, como a regra da potência, a regra da soma, a regra da diferença e a regra da multiplicação por uma constante.
  • Regra da cadeia e outros tópicos avançados: a regra da cadeia é uma regra para derivar funções que dependem de outras funções. Além disso, também são abordados tópicos avançados como a diferenciação implícita, a derivada de funções inversas e a derivada de funções trigonométricas inversas.
  • Concavidade e pontos de inflexão: a concavidade é a propriedade de uma função de ser curvada para cima ou para baixo em um ponto ou intervalo. Os pontos de inflexão são os pontos em que a concavidade muda. Eles podem ser encontrados usando a segunda derivada da função.
  • Aplicações de máximos e mínimos: os máximos e mínimos são importantes em diversas áreas, como na resolução de problemas de otimização e na análise de sistemas dinâmicos. Eles também são usados em machine learning para encontrar os melhores valores de parâmetros para um modelo.

Cálculo Integral

Apesar de não serem tão utilizadas quanto as derivadas, é importante também estudar integrais.

Em modelos de grafos probabilísticos você acaba encontrando integrais na normalização das distribuições de probabilidades.

Essas aulas cobrem:

  • Integrais: conceito de integrais, que são usadas para calcular a área sob uma curva ou para encontrar o valor médio de uma função. Aproximação com somas de Riemann, bem como o teorema fundamental do cálculo e sua aplicação às integrais. Outros tópicos incluem propriedades de integrais definidas, a regra da potência reversa e vários métodos para avaliar integrais, como substituição, divisão longa, identidades trigonométricas e integração por partes.
  • Equações diferenciais: esta seção apresenta as equações diferenciais, que são equações que descrevem como uma função muda ao longo do tempo. Aborda a verificação de soluções de equações diferenciais, o traçado de campos vetoriais e a aproximação com o método de Euler. Outros tópicos incluem separação de variáveis, soluções particulares de equações diferenciais e modelos exponenciais e logísticos.
  • Aplicações de integrais: Esta seção aborda várias aplicações de integrais, incluindo o o cálculo de volume usando vários métodos. Também aborda tópicos como centróides, momento de inércia, trabalho e energia cinética, energia potencial e conservação da energia mecânica. Por fim, aborda as equações de Euler-Lagrange e sua aplicação a sistemas com e sem restrições.

Cálculo Multivariável

Em machine learning você vai lidar com mais de uma variável de cada vez.

Até agora você aprendeu a aplicar métodos de Cálculo sobre uma variável, mas nestas aulas você aprenderá a expandir esses metódos para cobrir duas ou mais variáveis.

Em alguns casos você terá milhões de variáveis para processar!

Mas não se assuste, você não precisará fazer tudo isso na mão.

Ainda assim é importante você aprender para desenvolver a intuição de como os algoritmos funcionam.

Você aprenderá:

  • Funções multivariáveis: são funções que dependem de mais de uma variável. Por exemplo, o Índice de Massa Corpórea de uma pessoa é uma função da altura e do peso.
  • Vetores e matrizes: são estruturas matemáticas que permitem armazenar e manipular dados de maneira eficiente. Por exemplo, um vetor pode ser usado para representar uma lista de valores de temperatura medidos ao longo de um mês.
  • Visualização de funções multivariáveis: é a representação gráfica de funções multivariáveis, o que pode ajudar a entender como os valores das variáveis afetam o resultado da função.
  • Derivadas de funções multivariáveis: são as taxas de mudança das variáveis em uma função multivariável. Por exemplo, a derivada da função de crescimento de uma massa de pão pode ser usada para entender como o tamanho da massa muda com o tempo e a temperatura ambiente.
  • Aplicações de derivadas de funções multivariáveis: incluem o cálculo de planos tangentes e aproximações lineares, aproximações quadráticas, e otimização de funções multivariáveis. Por exemplo, a otimização de um portfólio de ações ajuda a encontrar a quantia de dinheiro que deve ser alocada a cada ação para maximizar o resultado.
  • Integração de funções multivariáveis: é o processo de calcular o valor de uma função multivariável em uma região do espaço. Por exemplo, a integração de uma função que depende da distância percorrida e do tempo pode ajudar a calcular o esforço total gasto em uma corrida.

Álgebra Linear

Essa é uma área essencial. É o que nos permite expandir o cálculo para milhões de variáveis e criar modelos de machine learning para as tarefas mais impressionantes.

No fim das contas, machine learning (principalmente deep learning) é um monte de operações matemáticas sobre matrizes e vetores.

Álgebra linear é a área da matemática que estuda e desenvolve os métodos para manipular essas matrizes e vetores, por isso ela é importante para seus estudos.

Eu me diverti muito mais estudando essa área do que Cálculo.

O conteúdo sobre álgebra linear da Khan Academy é um pouco limitado, então eu recomendo que você complemente com o conteúdo desta playlist do 3Blue1Brown (inglês, com legendas)

Você aprenderá:

  • Vetores e espaços vetoriais: são estruturas matemáticas que consistem em uma lista de números, que são chamados de componentes do vetor. Os vetores podem ser usados para representar quantidades em diferentes direções ou dimensões, como por exemplo, a velocidade de um objeto.
  • Combinações lineares: são operações que envolvem a soma e a multiplicação de vetores. Por exemplo, uma combinação linear de dois vetores pode ser usada para calcular a soma desses vetores.
  • Dependência e independência linear: são propriedades que descrevem se um conjunto de vetores pode ser representado como uma combinação linear de outros vetores. Por exemplo, um conjunto de vetores é dependente linearmente se pode ser representado como uma combinação linear de outros vetores, e é independente linearmente se não pode ser representado dessa maneira.
  • Subespaços e bases: um subespaço é um conjunto de vetores que forma um espaço com algumas propriedades matemáticas. Uma base é um conjunto de vetores que forma um subespaço e é independente linearmente.
  • Produto escalar e vetorial: são operações que envolvem a multiplicação de vetores. O produto escalar é uma operação que retorna um número, enquanto o produto vetorial é uma operação que retorna um vetor. Por exemplo, o produto escalar de dois vetores pode ser utilizado para calcular a similaridade entre duas frases.

Recursos Adicionais

StatQuest

Além dos recursos principais acima, eu recomendo assistir os vídeos do canal StatQuest.

Este é um canal do YouTube com vídeos explicativos sobre estatística e ciência de dados de maneira super acessível e divertida.

WolframAlpha

screenshot wolframalpha

Este é um grande amigo na hora de entender e resolver problemas matemáticos.

Para usá-lo, basta digitar a equação ou problema na caixa de pesquisa e pressionar “enter”.

O WolframAlpha analisará a equação ou problema e fornecerá uma resposta, que pode incluir a solução da equação, gráficos, visualizações, e explicações detalhadas do processo de resolução.

Por exemplo, se você digitar “x^2 + 3x + 2 = 0” na caixa de pesquisa do WolframAlpha, ele irá fornecer a solução para essa equação quadrática, que é x = -1 e x = -2.

Se você digitar “integral x^2 dx, x=0 to 1”, ele calculará a integral e fornecerá o resultado, que é 1/3.

Live no Youtube

Este artigo nasceu de uma live que fiz no Youtube explicando o mesmo conteúdo. Você pode assisti-la abaixo (aproveite e se inscreva no canal 😉):

Como Estudar a Matemática Para Data Science?

Definir o número de vídeos que você vai fazer por dia/semana é uma boa maneira de estabelecer uma rotina de estudo.

Por exemplo, você pode estudar duas aulas por dia de segunda a sexta e quatro aulas aos sábados.

É importante ser consistente e seguir o cronograma que você estabelecer e não se distrair com outras atividades ou tarefas que não estão incluídas no seu plano de estudo, pois isso pode atrapalhar o progresso e te desmotivar.

Se não tiver exercícios disponíveis no tema que você está estudando, uma opção é tentar explicar o assunto com suas próprias palavras.

Isso pode ajudar a fixar o conhecimento e a identificar eventuais pontos que você precisa estudar mais.

Também pode ser útil fazer perguntas a si mesmo sobre o assunto e tentar respondê-las, ou procurar exemplos práticos para ilustrar o que você está aprendendo.

Outra técnica de estudo que pode ser útil é a técnica do pomodoro.

Nela, você estuda por 25 minutos, descansa por 5 minutos e, quando completar 4 blocos, descansa por mais 30 minutos.

Essa técnica pode ajudar a manter a sua concentração e evitar o cansaço mental.

Uma variação dessa técnica é o método 50/10, onde você estuda por 50 minutos e descansa por 10 minutos.

Experimente ambas e veja qual delas funciona melhor para você.

Mais 5 dicas de estudo nesse vídeo.

Como Se Manter Motivado?

Quando eu comecei a estudar a matemática para data science, eu tentei assistir aos vídeos sobre equações de primeiro grau para tentar relembrar alguma coisa da matemática que eu havia visto pela última vez no ensino médio.

Eu não lembrava de nada e ia voltando para os assuntos mais básicos, até que eu voltei para uma aula em que o professor ensinava a fazer adição simples!

Literalmente ensinando que se eu tivesse 3 melões e meu amigo me desse 4 melões, eu ficaria com 7 melões!

Essa parte eu ainda lembrava, então avancei!

Por isso, não se desanime se sua matemática está enferrujada ou se você sempre teve dificuldades.

Eu sempre ficava de recuperação nas matérias de matemática e física, mas coloquei na cabeça que se eu insistisse em aprender, nem que eu precisasse revisar mil vezes e fazer dezenas de exercícios, eu iria conseguir.

Nem preciso dizer que deu certo, né?

Vá estudando uma coisa de cada vez, com paciência, não se compare aos outros e venha fazer parte dessa comunidade incrível de cientistas de dados do Brasil!

Seja o primeiro a saber das novidades em Machine Learning. Me siga no LinkedIn.