IGTI Blog
preparação de dados

Por que estudar preparação de dados?

Uma preparação de dados adequada torna possível extrair informações, auxiliando nas tomadas de decisões e nas soluções de problemas.

Considere o seguinte problema: um gerente deseja conhecer o perfil dos clientes e dos possíveis clientes para criar campanhas de marketing direcionado. O objetivo é aumentar a carteira de clientes da empresa e fidelizar os clientes existentes. Esse gerente não sabe como resolver esse problema, porém ele sabe quem pode ajudá-lo a resolver: a TI da empresa.

Dentro da TI temos diversos profissionais que estão envolvidos na resolução desse problema: o engenheiro de dados, o cientista de dados, o analista de negócio, entre outros. As responsabilidades de cada um desses profissionais podem se intercalar ao decorrer do projeto, porém o esperado é que o engenheiro de dados cuide de como os dados serão armazenados e pré-processados. O cientista de dados será o responsável por fazer a extração de conhecimento dos dados e o analista de negócio utilizará o conhecimento obtido para gerar relatórios de acordo com a necessidade das partes interessadas.

Suponha que o profissional envolvido nesse problema faça a identificação dos dados relacionados com o problema. Esses dados podem ser tanto os internos da empresa, quanto os externos. Essa identificação inicial será o ponto de partida para fazer a coleta dos dados e a integração deles em um conjunto de dados que será utilizado no projeto.

Nesse exemplo o profissional fará a identificação dos dados disponíveis que têm relação com o problema. A figura a seguir apresenta os dados identificados pelo profissional:

preparação de dados

Os dados estruturados são provenientes dos bancos de dados relacionais da empresa. Os dados semiestruturados e não estruturados podem vir de diversas fontes, como por exemplo: arquivos de texto, planilhas, e-mails, pesquisas de mercado e arquivos de mídia (imagem, vídeo e áudio). Outras fontes de dados importantes são as redes sociais e bases externas abertas. Os dados provenientes dessas fontes podem tanto ser requisitos básicos para o problema, quanto ser utilizados para enriquecer o conjunto de dados que será preparado.

Veja também: Avaliação de desempenho dos sistemas de banco de dados

Nesse exemplo, o profissional fez a identificação desses dados e integrou em um conjunto de dados. Entretanto, a identificação dos perfis de clientes e potenciais clientes não é a próxima atividade que será executada nesse conjunto de dados. Existe um processo intermediário de muita importância para a solução do problema: a preparação de dados.

Se não houver uma adequada preparação de dados, não será possível extrair conhecimento, pois os dados estarão em estado bruto. Cabe ao preparador de dados executar várias atividades para tornar os dados brutos em informações relevantes para o problema.

preparação de dados

A preparação de dados pode ser definida da seguinte maneira:

  • Processo de coletar, limpar, normalizar e combinar dados para análise.
  • Ponto de partida comum para diversos projetos que visam a descoberta de conhecimento.

Durante a preparação de dados, os dados em estado bruto são trabalhados para serem transformados em informação. Os dados em estado bruto são fatos objetivos e insignificantes quando isolados. Por exemplo: registros de compra e venda, informações de clientes e fornecedores, etc. Chamamos de informação os dados confiáveis, relevantes e enriquecidos.

A informação construída ao longo da preparação de dados será utilizada para se extrair conhecimento. O conhecimento são informações contextualizadas e baseadas em fatos. Por exemplo: um conjunto de informações relacionadas evidenciam um perfil de cliente. A partir do conhecimento é possível adquirir sabedoria, que é o conhecimento necessário para a tomada de decisões da empresa.

preparação de dados

A preparação de dados tem uma importância fundamental em projetos de mineração de dados. A figura a seguir apresenta um relatório feito pela Figure Eight sobre o tempo gasto em projetos de mineração de dados. Em média, cerca de 53% do tempo gasto em projetos desse tipo está relacionado com a preparação de dados.

preparação de dados

Esse percentual gasto na preparação de dados podem ser ainda maior caso se descubra, durante a fase de mineração de dados, que os dados não estão bem preparados. Em certos projetos, a preparação de dados pode tomar 70% a 80% do tempo necessário para resolver o problema, pois não adianta aplicar algoritmos de Machine Learning em dados ruins. Várias atividades são executadas durante a preparação de dados. A seguir, estão listadas as principais atividades:

  • Coleta: processo de adquirir dados (de diversas fontes e tipos) que estão relacionados com o problema.
  • Integração de dados: envolve combinar dados de diversas fontes e tipos em um único conjunto de dados.
  • Enriquecimento: processo de agregar valor aos dados existentes.
  • Entendimento do problema: tarefa fundamental que permite identificar se é possível ou não, resolver o problema proposto.
  • Limpeza dos dados: consiste em eliminar ruídos, inconsistências e resolver problemas estruturais.
  • Tratamento de dados ausentes: tratar dados que não estão no conjunto, porém são necessários para a análise.
  • Análise de outliers: identificar registros com comportamento fora do comum e analisá-los de acordo com o interesse.
  • Análise estatística: ao longo da preparação de dados, são executadas diversas análises estatísticas e visuais para auxiliar nas análises e atividades envolvidas.
  • Normalização: transformar um conjunto de dados que estão em diferentes grandezas e escalas em um conjunto de dados padronizados.
  • Redução da dimensionalidade: eliminação de características (atributos) redundantes, escolha das melhores características e seleção dos principais componentes dos dados.

São esperadas duas grandes entregas como resultados da preparação de dados:

  1. Entendimento do domínio do problema: o preparador de dados deve saber o que é o problema, como vai resolvê-lo, quais são as formas de testar a solução e se é possível resolver.
  2. Conjunto de dados confiável, relevante e enriquecido: o preparador de dados deve entregar esse conjunto para o cientista de dados, que aplicará os algoritmos necessários para a extração do conhecimento; e para o analista de negócios, que o utilizará para a tomada de decisão ou gerenciar esse conjunto para análises futuras.

Como podemos ver, as aplicações da preparação de dados são várias, pois esse processo é um ponto de partida em comum para diversos projetos. As aplicações mais comuns são projetos que envolvem a tomada de decisão a partir de relatórios e dashboards e em projetos de mineração de dados.

Um conjunto de dados não preparado ou mal preparado, não permite alcançar bons resultados em projetos de mineração de dados, e torna os relatórios e dashboards não confiáveis. A preparação de dados toma uma considerável parte do tempo necessário para concluir um projeto de mineração de dados, podendo aumentar de acordo com o estado original dos dados e a complexidade do projeto.

O processo de preparação de dados consiste em várias atividades que devem ser executadas para transformar dados brutos em informações. Espera-se que ao final da preparação de dados, o profissional responsável entenda claramente o problema e se é possível solucioná-lo, e que seja entregue um conjunto de dados confiável, relevante e enriquecido.

Professor autor: Josemar Alves Caetano