Conceito
Campo interdisciplinar que utiliza e combina métodos científicos, processos, algoritmos e sistemas para extrair conhecimento e insights a partir de dados. Envolve a coleta, análise e interpretação de grandes volumes de informações para apoiar a tomada de decisões e resolver problemas complexos em diversas áreas do conhecimento.
Processos
Coleta de dados | Preparação de dados | Exploração de dados | Modelagem de dados | Validação do modelo | Implantação de modelos.
Coleta de dados
As principais fontes utilizadas na coleta de dados são: banco de dados, arquivos, sensores, apis, web scraping, pesquisas e questionários. As principais dificuldades neste processo são: qualidade, escalabilidade e privacidade.
Preparação de dados
Após a coleta de dados é necessário a preparação dos dados coletados sendo uma fase bem crítica, pois vai garantir a qualidade dos dados coletados. Para que isto ocorra é necessário realizar os seguintes tratamentos de dados: eliminação de dados duplicados, tratamento de valores ausentes, correção de erros e formatos, padronização, transformação, seleção e validação.
Exploração de dados
Nesta fase/processo os cientistas de dados, utilizam a análise exploratória para compreender a estrutura dos dados, resumir características fazendo uso de técnicas de visualização de dados.
Modelagem de dados
O processo de modelagem cria modelos de dados e utiliza-se de algoritmos e modelos matemáticos e estatísticos para que o modelo escolhido consiga fazer previsões, classificações e buscar padrões nos dados. A escolha do modelo de algoritmo depende do tipo de problema a ser analisado.
Continuarei tratando mais sobre o assunto em outro artigo e se você tem interesse em saber mais sobre o assunto deixo aqui a recomendação de dois livros da editora casa do código. Se você comprar os links que recomendo você contribuirá para mantermos os custos de hospedagem deste site/blog.
Segue os dois livros que recomendo:
- Introdução a Data Science: Algoritmos de Machine Learning e métodos de análise
- Pandas Python: Data Wrangling para Ciência de Dados eBook Kindle