Introdução a ciência de dados o que é?

Conceito

Campo interdisciplinar que utiliza e combina métodos científicos, processos, algoritmos e sistemas para extrair conhecimento e insights a partir de dados. Envolve a coleta, análise e interpretação de grandes volumes de informações para apoiar a tomada de decisões e resolver problemas complexos em diversas áreas do conhecimento.

Processos

Coleta de dados | Preparação de dados | Exploração de dados | Modelagem de dados | Validação do modelo | Implantação de modelos.

Coleta de dados

As principais fontes utilizadas na coleta de dados são: banco de dados, arquivos, sensores, apis, web scraping, pesquisas e questionários. As principais dificuldades neste processo são: qualidade, escalabilidade e privacidade.

Preparação de dados

Após a coleta de dados é necessário a preparação dos dados coletados sendo uma fase bem crítica, pois vai garantir a qualidade dos dados coletados. Para que isto ocorra é necessário realizar os seguintes tratamentos de dados: eliminação de dados duplicados, tratamento de valores ausentes, correção de erros e formatos, padronização, transformação, seleção e validação.

Exploração de dados

Nesta fase/processo os cientistas de dados, utilizam a análise exploratória para compreender a estrutura dos dados, resumir características fazendo uso de técnicas de visualização de dados.

Modelagem de dados

O processo de modelagem cria modelos de dados e utiliza-se de algoritmos e modelos matemáticos e estatísticos para que o modelo escolhido consiga fazer previsões, classificações e buscar padrões nos dados. A escolha do modelo de algoritmo depende do tipo de problema a ser analisado.

Continuarei tratando mais sobre o assunto em outro artigo e se você tem interesse em saber mais sobre o assunto deixo aqui a recomendação de dois livros da editora casa do código. Se você comprar os links que recomendo você contribuirá para mantermos os custos de hospedagem deste site/blog.

Segue os dois livros que recomendo:

Siga e compartilhe:
error