Onde Encontrar Datasets para Praticar Data Science e Machine Learning

Para se tornar um bom Data Scientist e começar a realmente entender Machine Learning duas coisas são muito importantes: estudar os algoritmos, e aplicar o que foi aprendido a dados reais.

Na indústria, a maior parte do tempo de um projeto de Machine Learning é normalmente gasta com a preparação e compreensão dos dados. Aplicar um algoritmo super avançado de Machine Learning a dados ruins seria como usar um carro esportivo muito veloz numa estrada esburacada. Não adianta ele ter uma ótima performance, você não vai conseguir passar de uma certa velocidade.

Na prática muitas vezes o que faz a diferença entre um modelo muito bom e um mediano é justamente entender os dados, e saber prepara-los bem para aplicar um algoritmo. E esta é uma habilidade que pode ser aprendida como qualquer outra.

Por isso, quero listar aqui alguns sites onde você poderá encontrar datasets abertos para praticar as suas habilidades, ou usar na prática, dependendo de seu projeto:

UCI Machine Learning Repository


Um dos sites mais conhecidos que disponibilizam datasets públicos, o repositório da UC Irvine contém centenas de datasets em áreas variadas. Você é livre para explorar os datasets da forma como quiser, mas eles dão a opção de filtrar por:

  • Área de interesse
  • Tipo de tarefa mais apropriada (classificação, regressão, clustering)
  • Formato das variáveis (categóricas, numéricas)
  • Tipo dos dados (uma ou mais variáveis, séries temporais)
  • Quantidade de variáveis independentes
  • Quantidade de exemplos

Além disso, ao acessar a página de um dataset em particular, é possível ver detalhes como a fonte, informações sobre o problema, variáveis, e o mais interessante, trabalhos acadêmicos que usam este dataset, que podem ser uma ótima fonte de ideias e aprendizado para tentar reproduzir.

Quandl


Este site é especializado em dados financeiros e econômicos. Ele possui uma vasta quantidade de dados macroeconômicos, geopolíticos, demográficos, bem como dados sobre ações, commodities, futuros, empresas de capital aberto, até mesmo sobre bitcoin. Dizem ter mais de 10 milhões de datasets.

Além de uma plataforma que permite uma busca fácil, ele possui uma API que facilita a integração com linguagens bastante utilizadas para análise de dados como Python e R. A maioria dos dados está voltado para o mercado financeiro americano, mas é possível encontrar dados de outros países também.

Existem os datasets abertos, grátis, e uma parte premium, que é paga.

Kaggle


Uma das melhores formas de trabalhar em casos próximos da realidade é através das competições no Kaggle. Empresas e instituições acadêmicas disponibilizam dados e um objetivo (como, por exemplo, descobrir automaticamente se um anúncio está de acordo com as regras do site).

O objetivo aqui não é falar sobre como ganhar uma competição destas, mas tratar o site como uma fonte de dados, e também como um referencial sobre suas habilidades, já que é possível comparar suas soluções com outras de centenas de pessoas.

Mais do que isso, ao fim das competições, normalmente as soluções são compartilhadas, então é possível preencher as lacunas do conhecimento, ver até onde você conseguiu chegar, e quais foram os métodos que fizeram a diferença entre você e outros competidores com uma posição melhor.

É de graça para competir, e se você tiver habilidade, paciência, dedicação, e um pouco de sorte, pode até ganhar um prêmio.

Amazon AWS Datasets

Se você estiver se sentindo corajoso, este é um repositório de datasets disponibilizados pela Amazon para usar com o serviço de cloud computing (AWS) da empresa.

São datasets gigantescos em áreas como processamento de linguagem natural para entender pesquisas em mecanismos de buscas, pesquisas genéticas e dados climáticos. As áreas são variadas, mas o que há em comum é o tamanho dos dados, que claramente não cabem na memória e devem ser analisados utilizando ferramentas específicas para big data.

Neste caso os datasets são grátis, mas o uso da plataforma de cloud computing não. De qualquer maneira é uma ótima forma de conhecer ferramentas, e ganhar prática na análise de grandes datasets, que é uma área com um potencial enorme de crescimento.

Estes são apenas alguns dos sites, mas eles já fornecem bastante material para ser explorado, e são de fácil acesso para iniciantes ou usuários mais avançados.

  1. Seguem algumas outras fontes gratuitas de dados:

    https://opendata.socrata.com/
    http://www.google.com/publicdata/directory
    http://webscope.sandbox.yahoo.com/
    http://mldata.org/
    http://www.crowdflower.com/data-for-everyone
    https://github.com/caesar0301/awesome-public-datasets
    http://www.dmoz.org/Computers/Artificial_Intelligence/Machine_Learning/Datasets/
    http://datahub.io/
    http://enigma.io/solutions/

    Se tiver procurando por algo mais específico, vale a pena olhar no reddit também: http://www.reddit.com/r/datasets

    Ou se tiver procurando grandes conjuntos de dados, tem um tópico no Quora que cita algumas fontes interessantes: http://www.quora.com/Where-can-I-find-large-datasets-open-to-the-public

    Por fim, segue uma lista exaustiva de fontes de dados, que é atualizada pelo blog KDnuggets: http://www.kdnuggets.com/datasets/index.html

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *