IGTI Blog

A carreira dos profissionais de Ciência de Dados, Engenharia de Dados e Machine Learning

Professor autor: João Paulo Barbosa Nascimento

Dados, informação e conhecimento. O significado de cada um desses termos talvez seja uma das primeiras perguntas que os professores universitários de cursos de graduação em computação fazem para instigar os seus alunos. Esses termos continuam cada vez mais em evidência, principalmente quando grande parte das empresas percebeu sua importância. Os dados constituem a matéria-prima da informação e, no ambiente empresarial representam características de fatos acontecidos, como o registro de uma venda realizada ou de um funcionário admitido. A informação é o dado tratado, de forma que seja possível o entendimento humano, de forma que esse dado, após um processamento, adquira algum significado. Por último, o conhecimento vai além da informação, uma vez que ele possui um significado e uma aplicação. No mundo empresarial o conhecimento constitui um profundo saber, que a informação sozinha não é capaz de mostrar.

É justamente sobre esse saber que, no meio empresarial, surgiu o termo Data Driven Enterprise ou Empresa Orientada a Dados. Ser uma empresa orientada a dados significa cultivar em todo o ambiente organizacional a ideia de utilizar continuamente a análise profunda de dados antes de qualquer tomada de decisão. O objetivo nesse caso é alcançar um alto nível de uso dos dados e proporcionar informações consolidadas para que executivos e técnicos possam embasar suas decisões e, com isso, aumentar suas taxas de sucesso, gerando conhecimento sobre seus processos de negócio. Diversas áreas dessas organizações devem aproveitar e estão interessadas nessas informações, tais como marketing, finanças, vendas, CRM e muitas outras.

Todas as inúmeras análises de dados que podem ser realizadas fazem com que uma empresa se diferencie perante aos seus concorrentes e alcance a tão sonhada vantagem competitiva no mercado. Uma das principais particularidades de uma Data Driven é a sua capacidade de coletar e analisar dados relevantes ao seu negócio, estejam esses dados armazenados interna ou externamente à organização, e essa maneira de trabalhar contribui para que a as empresas mergulhem de maneira profunda em seus processos visando entender o real funcionamento e atual condição do negócio, como o processo de vendas, a precificação de produtos e serviços, as novas tendências de mercados e as várias e constantes mudanças de comportamento de seus clientes.

Se tornar uma Data Driven não é algo que se alcance do dia para noite e essa mudança não pode acontecer apenas para atender um desejo isolado ou uma moda. É preciso que todos os colaboradores estejam engajados na ideia e também uma rígida política de acompanhamento e análise de dados. O uso de dados e análises nos fluxos de trabalhos diários deve ser compreendido e apoiado por toda a organização. Para as empresas iniciantes é necessário definir claramente quais serão as métricas ou indicadores utilizados para medir um determinado processo de negócio e quais serão os dados que irão “alimentar” esses indicadores.

Um artigo da Computerworld de 2013 destaca as principais características de uma empresa orientada a dados:

  • Valorizam o compartilhamento: acreditam que as empresas, e não os funcionários, detêm os dados necessários para impulsionar o crescimento. Acreditam que dados não servem apenas para serem acumulados, mas sim para serem utilizados.
  • Usam os dados ao máximo: os dados devem ser utilizados ao máximo pelo maior número de funcionários e setores possíveis.
  • Coletam: em uma empresa orientada a dados a coleta é uma atividade primária e contínua realizada por todos os setores (ou a grande maioria deles).
  • Recebem apoio da alta direção: para o sucesso da coleta e análise de dados é necessário o apoio e envolvimento da alta direção da empresa. É preciso que essas pessoas “comprem a briga”.

Mas onde estão esses dados que podem gerar as informações relevantes para tornar uma organização orientada a dados? É justamente para responder essa questão que entra o profissional Cientista de Dados. A maioria das empresas não sabe onde encontrar esses dados, mas sabe que precisa deles para embasar suas decisões e esse profissional irá conduzir o processo de transformação de uma empresa tradicional em uma Data Driven.

Qual o perfil desse profissional? Existe somente um tipo de Cientista de Dados? É possível especializar-se em uma linha ou subárea específica da Ciência dos Dados? Não existe uma divisão oficial dessas subáreas, porém podemos sugerir aqui três divisões principais, que são: Engenheiro de Dados, Cientista de Dados (Data Analytics) e Especialista em Aprendizado de Máquina (Machine Learning).

Pontos comuns entre as especialidades

O principal ponto de interseção entre as três subáreas aqui sugeridas é a proatividade do profissional. Quando uma organização decide se tornar uma Data Driven e sai em busca de um profissional para lidar com os seus dados, ela não tem nenhuma ou quase nenhuma ideia de qual informação ela quer e nem de qual informação pode ser extraída de suas massas de dados. Os resultados que serão alcançados (insights) dependerão diretamente da criatividade desses três profissionais que irão lidar diretamente com os dados. Infelizmente não existe uma receita de bolo pronta, pois é preciso muita dedicação até que a organização alcance um bom nível de maturidade na utilização de seus dados para as tomadas de decisões.

Não podemos deixar de destacar que para uma análise de dados eficaz é necessário que as empresas se preocupem com a sua solução de dados. Como os dados serão armazenados, em seus domínios ou em nuvem? Sua estrutura de armazenamento está preparada para crescer em conjunto com o crescimento da organização? Qual é a melhor maneira de realizar o armazenamento economicamente falando? Podemos escalar nossa estrutura de armazenamento e de processamento? Nossos dados estão seguros? Nossa estrutura tem alta disponibilidade? Os resultados de nossas análises de dados são úteis e confiáveis? Essas perguntas destacam alguns pontos que nem sempre são pensados pelas organizações no momento que ela parte para ser uma organização orientada a dados. Na maioria das vezes se pensa no processamento, mas se esquece que para um processamento eficaz é necessário, antes de tudo, que os dados a serem utilizados estejam prontos e armazenados da melhor maneira possível.

Evidentemente vários outros pontos são comuns aos três especialistas, tais como:

  • Argumentação: essa habilidade é muito importante e utilizada pelos três profissionais, principalmente no momento de convencer os interessados sobre a importância e relevância de determinado insight, pela escolha por uma determinada forma de armazenamento ou pelo uso de determinado recurso.
  • Comunicação e Liderança: a comunicação se faz necessária, principalmente no momento de comunicar decisões e novos processos. A liderança tem papel fundamental no perfil profissional, uma vez que diversas áreas são envolvidas e é preciso centralizar as decisões.
  • Curiosidade: em análise de dados é preciso ir a fundo, investigar, perguntar e querer saber o real motivo dos acontecimentos. Sem curiosidade nada disso é possível. É preciso chegar a um ponto de investigação que ninguém chegou e, por meio dos dados, encontrar a causa de determinado fenômeno.
  • Interpretação e Exposição de Resultados: é necessário que o profissional consiga dar uma interpretação plausível para os resultados gerados. Essa interpretação é o conhecimento que foi gerado após a análise. É preciso explicar em uma linguagem simples, sem termos técnicos, para as diversas áreas envolvidas no processo (técnicos e gestores), uma vez que esse público não é da área da Tecnologia da Informação e alguns termos podem descaracterizar o trabalho que foi realizado. Se essa interpretação não for bem dada, possivelmente os insights não serão úteis e poderão ser descartados.

Áreas de conhecimento técnico necessárias e compartilhadas

No início, quando as empresas sentiram a necessidade de contar com um profissional da área da Ciência dos Dados em sua equipe, acreditava-se que somente um perfil profissional seria suficiente para atender toda a demanda. A medida que o tempo foi passando e as empresas foram conhecendo melhor as suas necessidades, observou-se que o campo técnico do Cientista de Dados era bastante amplo e variado. O conhecimento exigido e comum às três subáreas passava por diversas tecnologias em áreas distintas, tais como:

  • Bancos de dados relacionais e não relacionais: para a geração de indicadores e o encontro dos insights era necessário utilizar dados que já vinham sendo armazenados no ambiente corporativo há muito tempo.
  • Linguagens de programação diversas: para a implementação dos algoritmos que iriam realizar as análises sobre os dados, era preciso utilizar linguagens de programação, como JAVA, Python, Scala, C++, R, etc.
  • Coleta de dados da Web (Web Crawler): os dados para a geração de indicadores e insights não somente estão armazenados dentro das empresas. Muitos desses dados estão no ambiente externo, como em redes sociais, blogs, sites de notícias e na própria Internet, como um todo. Diante disso é necessário a criação ou utilização de ferramentas que realizam a coleta de dados desses ambientes.
  • Aprendizado de Máquina (Machine Learning): algoritmos programados especificamente para extrair uma determinada informação é algo bem comum no ambiente corporativo. O objetivo da utilização do Aprendizado de Máquina é extrair informações (insights) em dados sem a necessidade de uma programação prévia, pois a principal característica desses algoritmos é a capacidade de aprenderem com os próprios dados.
  • Data Mining: realizar o processo de minerar dados consiste em descobrir informações em grandes massas de dados (insights). É um processo fundamental para a análise de dados.
  • Computação em Nuvem: o armazenamento em nuvem é uma realidade para grande parte das organizações, uma vez que ela permite a flexibilidade, disponibilidade e escalabilidade na contratação de serviços de hardware e software. Em algumas situações a utilização desse serviço pode significar uma grande economia para as organizações.
  • Engenharia de Software e UML: para a realização das análises dos dados, diversos produtos de software precisam ser construídos, adaptados ou adquiridos e, por isso, existe a necessidade de criação de um eficiente processo de software e a modelagem dos processos empresariais por meio da UML.
  • Preparação de Dados: conhecido também como Data Preparation, essa técnica tem objetivo de limpar, estruturar, realizar combinações com outros dados e deixar o dado pronto para a realização da análise. Um dos objetivos aqui é eliminar dados desnecessários e redundantes.
  • Frameworks para Processamento Paralelo e Distribuído: grandes massas de dados exigem processamento diferente dos nossos métodos tradicionais. A distribuição e a paralelização são uma realidade e diversos arcabouços (frameworks) surgiram para facilitar o dia-a-dia do Cientista de Dados, fornecendo distribuição automática e tolerância a falhas.

Como se não bastassem todos esses requisitos tecnológicos, adicionalmente, é necessário uma equipe multidisciplinar para lidar com as diversas fontes de dados existentes. Serão necessários bons conhecimentos em outras áreas correlatas, além das esperadas Matemática e Estatística. Dependendo do tipo de análise a ser realizada, pode ser necessário envolver outros profissionais como Cientistas Sociais e Atuariais, Médicos, Advogados, Engenheiros, Biólogos, Contadores e muitos outros.

Com o tempo e com o desenvolvimento dos trabalhos de análise de dados, percebeu-se que era difícil encontrar um profissional especializado em todas essas tecnologias discutidas aqui. O tempo para o aprendizado e aprofundamento em todas essas disciplinas é muito grande e, com isso, surgiu a necessidade de termos o Cientista de Dados especialista em algumas subáreas, conforme destacamos neste artigo.

Competências e tarefas dos profissionais especialistas em dados

Mesmo no início da popularização da computação nas empresas, tínhamos a ideia de um profissional único que seria responsável por todas as atividades que envolviam a tecnologia da informação. Antigamente o mesmo profissional que lidava com a infraestrutura de máquinas era o mesmo que lidava com a Engenharia de Software, com o armazenamento de dados, levantamento de requisitos de software, programação e testes.

Com o passar do tempo, na medida que os processos informatizados se tornaram comuns dentro das organizações, essa realidade foi mudando. Atualmente temos diversas especializações dentro da Tecnologia da Informação, como o Analista de Redes, o Engenheiro de Software, o Administrador de Banco de Dados, o Analista de Requisitos e de Sistemas, o Programador e o Analista de Testes. Essas especializações só foram possíveis a partir do aumento da demanda e pela popularização do software dentro das organizações.

Na Ciência dos Dados a realidade trilha o mesmo caminho, a partir do momento que estamos sentindo a necessidade de especializar áreas do Big Data, em busca de melhores resultados. Com isso, pudemos criar sub áreas (já citadas nesse texto), e vamos detalhá-las abaixo, sabendo que cada uma possui as suas próprias competências, sendo que algumas destas competências se relacionam e são comuns a todas as subáreas.

a) Ciência de Dados

O profissional de Ciência dos Dados é especializado em realizar as Análises de Dados (Data Analytics). Caso as responsabilidades sejam bem definidas dentro de uma organização, esse profissional receberá os dados, já armazenados da maneira mais otimizada possível, para realizar o processamento.

Dos três perfis profissionais que estamos analisando, esse é o que possui o perfil mais investigativo, inovador e perspicaz, além de ser dotado de uma grande curiosidade e inquietação por explorar o desconhecido, levantar informações e, principalmente, gerar conhecimento para as organizações.

Uma das principais exigências para que o profissional seja um bom Cientista de Dados é que ele conheça a fundo o negócio da empresa em que está atuando, ou seja, conheça de maneira abrangente os processos empresariais. Essa é talvez uma das características mais difíceis e demoradas de se moldar nesse profissional, pois geralmente os processos empresariais são complexos e heterogêneos. Mesmo que duas organizações tenham o mesmo ramo de negócio, os seus processos terão diferenças. O tempo para o aprendizado deve ser considerado pela organização que deseja realizar análises de dados.

Por outro lado, se olharmos pela ótica do perfil antigo e conservador do profissional de Ciência de Dados, a parte tecnológica é uma das mais extensas. Nessa visão da profissão o profissional deverá ser um verdadeiro mestre jedi da computação pois, toda a responsabilidade de modelagem de soluções de armazenamento recaem sobre suas costas. Toda a parte de modelagem e execução da análise de dados, utilizando as mais diversas técnicas e ferramentas de processamento, também eram responsabilidade sua. Além disso, como se já não houvessem tarefas suficientes, esse profissional ainda era responsável por apresentar os resultados e ainda convencer os interessados (gestores e técnicos) sobre a importância dos resultados encontrados (insights).

Diante das novas divisões de responsabilidades e criação de novos perfis profissionais, o profissional de Ciência de Dados ficou responsável pela parte de processamento e análises dos dados. Com isso ele não precisa mais se preocupar a fundo com a solução de armazenamento, pois isso é realizado por outro perfil profissional da área de dados. A responsabilidade do Cientista de Dados inicia a partir do processamento dos dados, passando pela análise de resultados e busca por insights, chegando até a apresentação dos resultados aos interessados.

O Cientista de Dados, na parte tecnológica, lida diretamente com modelos e ferramentas distribuídas para processamento de grandes massas de dados, tais como Hadoop, Spark, Hive, Pig, MapReduce, Flink, etc. Além disso, diversas linguagens de programação são utilizadas no seu dia-a-dia, tais como Java, Scala, R, Python, SQL e várias outras. Bancos de dados relacionais (Oracle, SQLServer, PostgreSQL, MySQL etc) e não relacionais (MongoDB, Cassandra, ElasticSearch, Neo4J, dentre outros) também são muito utilizados na combinação de dados durante a análise.

Por último, os insights devem ser valorizados e, por isso, devem ser utilizadas ferramentas que possam melhorar a visualização dos resultados, tais como Tableau, Infogram, ChartBlocks, Google Charts e outras. Neste link temos um artigo do BluFrame destacando as 20 melhores ferramentas para visualização de Big Data.

Uma das perguntas mais comuns entre estudantes e interessados no assunto é: antes de começarmos a atuar em uma organização, precisamos ter um nível de conhecimento profundo em todas essas tecnologias?

Poderíamos dizer que não teríamos tempo suficiente para aprofundar completamente em todas essas tecnologias, portanto o ideal talvez seria conhecer um pouco sobre cada uma delas, principalmente no que diz respeito ao melhor momento de utilização e seu funcionamento. Posteriormente, podemos nos aprofundar em algumas ferramentas específicas à medida que formos visualizando a necessidade de utilização delas.

 

b)  Engenharia de Dados

Sabemos que a Engenharia é a ciência de adquirir e aplicar conhecimentos técnicos e científicos na criação, aperfeiçoamento e implementação de utilidades, promovendo soluções sob restrições organizacionais e financeiras. Esse conceito é utilizado nos diversos ramos da engenharia (Software, Elétrica, Civil, Produção, Química, etc).

Na área dos dados, a Engenharia de Dados é responsável por aplicar o conceito acima para promover as mais diversas soluções de dados. Com isso, essa área é responsável por criar, manter e evoluir toda a estrutura de armazenamento de uma organização.

O Engenheiro de Dados é o responsável pela tarefa de planejar e preparar toda a infraestrutura e arquitetura de dados, que poderá, inclusive, ser utilizada para armazenamento e processamento. Essa estrutura deverá ser projetada para ser escalável, ou seja, suportar o futuro crescimento da demanda por armazenamento, confiável, íntegra e segura. Além disso, esse profissional deverá sempre estar atento às novas tecnologias e estruturas de armazenamento que surgem, com o objetivo de sempre propor as soluções mais viáveis e com melhor custo-benefício para a organização em que atua.

O Engenheiro de Dados é o responsável também por projetar, construir, integrar e manter dados de diversas fontes diferentes, tais como: banco de dados relacionais, banco de dados não relacionais, dados não estruturados (e-mails, documentos PDF, memorandos e textos em geral) e coletas da Web (redes sociais, blogs, notícias, etc). O objetivo é organizar esses dados para consultas rápidas e complexas, otimizando o desempenho do ecossistema de dados de uma organização. Esse profissional estará apto a propor e implementar, de maneira otimizada, eficaz e racional, soluções completas para o armazenamento de dados de uma organização, utilizando as principais tecnologias e práticas disponíveis no mercado.

As atividades desempenhadas pelo Engenheiro de Dados englobam principalmente a já conhecida rotina de um DBA, porém acrescidas de muitas outras tarefas, tais como: manutenção de sistemas de banco de dados relacionais e não-relacionais, ETL (Extração, Transformação e Carga), soluções de Data-Warehouse e Datamart, modelagem de dados e armazenamento em nuvem. Além disso, diversas tecnologias fazem parte do dia a dia desse profissional, tais como: Oracle, MSSQL, MySQL, PostgreSQL, Neo4J, MongoDB, Cassandra, Sqoop, HDFS, Hive e muitas outras.

Atualmente existem muitas dúvidas acerca da atuação desse profissional, principalmente comparando-a à atuação do DBA (Administrador de Banco de Dados). A visão sobre essa questão é que o Engenheiro de Dados caminha para ser a evolução de DBA, pois atualmente as empresas não desejam apenas armazenar e manipular dados estruturados, pelo contrário, é esperado muito mais que isso. 

c) Machine Learning

O perfil do Especialista em Aprendizado de Máquina (Machine Learning) se assemelha muito ao Cientista de Dados e esse profissional não deixa de ser considerado também um Cientista de Dados. Acontece que a área de Aprendizado de Máquina vem experimentando um crescimento muito intenso e rápido, principalmente a partir do momento que começamos a ter acesso ao processamento em larga escala e, devido a esse fato, a área de atuação desse especialista concentra-se em algoritmos inteligentes, dada a importância, diversidade de aplicações e complexidade das técnicas de Inteligência Artificial.

O sucesso do trabalho do Especialista em Aprendizado de Máquina está em extrair informações (insights) em dados sem a necessidade de uma programação prévia, pois a principal característica desses algoritmos é a capacidade de aprenderem com os próprios dados. Um dos grandes desafios para esse especialista é conseguir entender os vários modelos de aprendizado de máquina existentes atualmente e saber qual deles melhor se aplica à análise de dados que está sendo realizada em determinado momento.

Na parte tecnológica, o profissional Especialista em Aprendizado de Máquina lida com muitas das ferramentas utilizadas pelo Cientista de Dados Padrão, entretanto a tendência aqui é por uma utilização mais aprimorada e avançada das ferramentas e algoritmos que envolvem Inteligência Artificial, tais como: Redes Neurais, Regressão (linear e logística), Métodos dos Mínimos Quadrados, Classificação, Agrupamento, Clusterização, Árvores de Decisão, Random Forest, Métodos Ensamble, KNN, K-Means, Máquinas de Vetores de Suporte, Processamento de Texto, Análise de Sentimento, Sistemas de Recomendação, Filtragem Colaborativa e muitos outros. Além disso, são utilizadas frameworks que já possuem diversos algoritmos de Aprendizado de Máquina implementados, tais como Mahout e Spark MLlib, TensorFlow, Caffe e Scikit.

A Inteligência Artificial atualmente é uma realidade e já temos diversos casos em que as técnicas de IA superaram o ser humano em algumas situações específicas. Um exemplo é o software AlphaGO, que venceu o melhor jogador de GO.

Comparação com os outros perfis profissionais

Assim como outras áreas da Tecnologia da Informação, a Ciência dos Dados traz consigo diversos desafios. No momento um dos principais é a definição de papéis específicos, entretanto essa questão começa a ser resolvida por meio da criação de novas especializações dentro da área, conforme apresentamos neste artigo.

O trabalho desses profissionais é lidar o tempo todo com inovação e estão sempre sob pressão, mas se pensarmos a fundo, isso não foge muito das outras áreas da Tecnologia da Informação. Talvez as organizações esperam resultados mágicos e instantâneos que, sabemos, não existem, principalmente no curto prazo. O que existe nesse caso é muito trabalho e dedicação, em melhorar as análises e buscar os melhores insights.

Os perfis dos três profissionais apresentados são extremamente qualificados e encontrar candidatos para essas vagas se tornou uma dor de cabeça para os gestores e recrutadores de RH, pois não temos no mercado um curso de graduação totalmente voltado para a área de Big Data. As universidades e faculdades estão ainda atualizando seus currículos, mas torna-se algo extremamente difícil formar esse profissional especializado, principalmente devido às constantes mudanças tecnológicas que estamos presenciando. A cada dia surge uma nova tecnologia para facilitar o trabalho do Cientista ou do Engenheiro de Dados e o ideal é que o interessado procure cursos de especialização, que contem com professores que atuem no mercado e instituições que mantenham os seus currículos sempre atualizados.

Perfil das disciplinas oferecidas na especialização do IGTI

O Instituto de Gestão e Tecnologia da Informação (IGTI) é uma das primeiras instituições a oferecer cursos na área de Big Data (MBA em Ciência dos Dados). Diante das atuais mudanças na área, a instituição criou mais dois cursos para atender à demanda do mercado: MBA em Engenharia dos Dados e MBA em Aprendizado de Máquina (Machine Learning). Nessas três opções de cursos, com currículos em linha com a necessidade do mercado, os alunos têm a oportunidade de se especializar na área que mais se identifica. Com isso, cada um dos perfis profissionais é atendido com um curso de especialização específico.

No curso de MBA em Ciência dos Dados o aluno terá contato com as principais metodologias de análise e processamento de grandes massas de dados (Big Data) e disciplinas específicas para análise de dados, como Fundamentos de Big Data, Modelagem de Programação MapReduce, Desenvolvimento de Soluções com Hadoop e Spark, Persistência de Bancos de Dados NoSQL, Processamento de Fluxo Contínuo de Dados, Análise de Dados Utilizando Dashboads e Análise Estatística de Dados. Tudo isso acompanhado por atividades práticas de laboratório. Com isso o aluno tem a oportunidade de aprender toda a rotina de análise e processamento de grandes massas de dados, realizada pelo Cientista de Dados.

No curso de MBA em Engenharia de Dados é abordada toda a rotina de trabalho de um Engenheiro de Dados, principalmente no que diz respeito à modelagem e armazenamento dos dados. Rotinas de um DBA são apresentadas em disciplinas como Fundamentos de Bancos de Dados Relacionais, Gerenciamento de Bancos de Dados Distribuídos, Performance e Otimização dos SGBDs e Aplicações com Linguagem SQL. A parte de armazenamento em nuvem é tratada de maneira detalhada na disciplina Infraestrutura de TI e Computação em Nuvem. O armazenamento de dados em bancos NoSQL é apresentado na disciplina Persistência de Dados em Bancos NoSQL. Rotinas de processamento de grandes massas de dados são apresentadas nas disciplinas Desenvolvimento de Soluções com Hadoop e Spark e Processamento de Fluxos Contínuos de Dados. Abordando a rotina específica do Engenheiro de Dados foram criadas as disciplinas Fundamentos de Engenharia de Dados, Armazenamento e Processamento Distribuído, Preparação de Dados (Data Preparation) e Desenho de Arquiteturas de Dados Escaláveis.

Por último o MBA em Aprendizado de Máquina (Machine Learning) traz um conjunto de disciplinas cuidadosamente elaboradas para formar um especialista em algoritmos de Inteligência Artificial. O curso traz os conceitos fundamentais da área na disciplina Fundamentos de Aprendizado de Máquina. Técnicas específicas do Aprendizado de Máquina são tratadas nas disciplinas Frameworks para Aprendizado de Máquina, Deep Learning, Reconhecimento de Padrões, Análise de Sentimento e Processamento de Texto, Modelos Preditivos e Sistemas de Recomendação. Por fim a disciplina Seleção de Modelos de Aprendizado de Máquina propicia ao aluno uma experiência para a seleção dos melhores modelos para aplicação em problemas específicos. Todo esse conteúdo é exercitado por meio de aulas práticas em laboratório e aulas interativas.

Conclusão

Executivos de diversas organizações já perceberam a importância da tomada de decisão orientada à dados. Vivemos uma mudança no formato das decisões nas organizações, onde não é mais aceitável que os gestores se baseiam apenas na intuição ou na sorte. Atualmente é exigido que tudo seja fundamentado em informações consolidadas, provenientes, na maioria das vezes, de uma grande massa de dados. Processar toda essa quantidade de dados e transformá-los em informação útil é o árduo trabalho de novos profissionais que são os Engenheiros e os Cientistas de Dados.

Diante das inúmeras atribuições e diversas tecnologias pelas quais esses profissionais são responsáveis, justifica-se a quebra dessas responsabilidades em subáreas específicas e a formação de profissionais extremamente especializados em cada uma delas, onde o Engenheiro de Dados é responsável por toda a modelagem e solução de armazenagem, o Cientista de Dados especialista em Data Analytics é responsável pelo processamento de Big Data de maneira geral e o Especialista em Aprendizado de Máquina que tem o seu foco especificamente voltado para os algoritmos que envolvem Inteligência Artificial. É preciso estar preparado para atender cada um desses perfis profissionais com cursos específicos e elaborados em linha com a necessidade do mercado.