IGTI Blog
apache hadoop

Apache Hadoop – Casos de Sucesso no uso da Tecnologia

Apresentação de 4 casos de sucesso de empresas que adotaram o Hadoop como sua ferramenta de Data Analytics.

Nos últimos anos o termo Big Data vem se tornando um assunto cada vez mais discutido em reuniões de planejamento estratégico em empresas de todos os portes, chegando a um ponto em que a preocupação com o processamento desses dados vem figurando como assunto principal nesses encontros.

O Apache Hadoop já comprovou em muitas situações e aplicações que se trata de uma ferramenta de Análise de Dados robusta, confiável, escalável e que pode ser adotada por empresas de diversos ramos e portes no mundo todo. Se você resolver realizar uma busca na Internet sobre casos de sucesso com o uso dessa tecnologia, ficará perdido no meio de tantas informações que temos a respeito desse assunto. Alguns casos com mais sucesso e outros com menos, entretanto podemos perceber que existe uma unanimidade de opiniões no que diz respeito ao custo versus o benefício dessa importante ferramenta.

O Hadoop foi criado em 2006 por Doug Cutting como uma evolução do Apache Nutch. A ferramenta é tolerante a falhas, escalável, capaz de processar grandes volumes de dados de maneira distribuída, e foi baseada no modelo MapReduce, proposto pelo Google em 2004. De lá para cá temos observado a popularização do seu uso devido principalmente ao aumento do número de desenvolvedores, da documentação disponível e da integração criada com outras ferramentas de manipulação de dados, tais como: SGBDs, ferramentas de ETL e soluções de armazenamento e visualização de dados. Na verdade, com todas essas importantes características, o Hadoop passou a fazer parte definitivamente do ecossistema das organizações, “conversando” diretamente com uma infinidade de aplicações que compõem uma arquitetura corporativa.

Veja o vídeo sobre a Utilização das ferramentas Hadoop e Spark

O primeiro caso de sucesso no uso da ferramenta Hadoop destacado aqui é o do Royal Bank of Scotland (RBS), um dos maiores bancos britânicos e que foi fundado em 1727. A instituição, que faturou mais de 13 bilhões de Euros em 2017, usa o Hadoop em busca de insights sobre seus clientes com o objetivo de melhorar suas experiências de comunicação.

Atualmente os clientes do banco utilizam vários canais para a interação, tais como: aplicativos móveis, telefone (URA), caixa eletrônico, e-mail, etc e, para aumentar a complexidade dos dados, existe ainda um alto número de produtos bancários (empréstimos, cartões de crédito, financiamentos, investimentos, dentre outros). A quantidade de consultas vindas de clientes que o banco recebe, contribui diretamente para o aumento da complexidade dos dados, que muitas vezes são registrados em sistemas distintos, demandando múltiplos formatos de armazenamento. Surge nesse momento um grande desafio que é consolidar, mesclar e analisar essas múltiplas fontes de dados estruturados e não-estruturados.

O uso do Hadoop permitiu ao RBS alcançar as informações consolidadas que são necessárias para que o banco possa fornecer um atendimento personalizado ao seu cliente, lembrando muito o atendimento que era fornecido pelo mesmo banco há 50 anos, quando o gerente realmente conhecia o cliente e suas preferências. Com isso a instituição decidiu competir no atendimento personalizado, ao invés de partir para o confronto direto com as instituições concorrentes. Além disso, o RBS está investindo fortemente em sistemas de recomendação e em sistemas que possam analisar dados não-estruturados de feedbacks fornecidos por clientes, com o objetivo de entender melhor o que os clientes estão pensando e o que eles realmente precisam. Na área de marketing, ao invés de criar campanhas que nem sempre alcançam os resultados desejados, o banco planeja usar a tecnologia para aconselhar seus atuais clientes.

As empresas precisam de algo sólido que proporcione vantagem competitiva sobre seus concorrentes. Coletar dados de clientes e analisar o seu comportamento, é uma das maneiras de obter essa vantagem. É isso que a companhia aérea British Airways tem feito com sucesso nos últimos anos. A empresa, fundada em 1974, faturou 11,5 bilhões de Euros em 2016. Atualmente a “gigante dos ares” possui armazenado petabytes de dados referentes ao seu programa de fidelidade e ao seu website. Foi criado então o programa Know Me com o objetivo de conhecer profundamente as necessidades dos seus clientes. O programa está descobrindo as necessidades dos clientes e auxiliando nas tomadas de decisões da seguinte forma:

– Reconhecimento pessoal: o programa reconhece os clientes que são fiéis à British Airways e transforma a gratidão da empresa em benefícios.

– Atendimento personalizado: caso o cliente esteja em direção ao aeroporto e, por algum motivo, não vá conseguir chegar a tempo de embarcar, a empresa dispara uma mensagem de texto preventiva com sugestões de reagendamento de voo.

Ofertas personalizadas: os melhores clientes da companhia são viajantes de negócios que não têm tempo para ofertas irrelevantes. Portanto o programa “Know Me” analisa os dados dos clientes para criar as próximas recomendações de ofertas relevantes e totalmente segmentadas.

Para conseguir todos os dados necessários para fornecer esses serviços personalizados ao cliente, a British busca e integra informações de diversos sistemas em muitos formatos diferentes, e muitos resultados precisam ser alcançados rapidamente para que a informação chegue até ao cliente em tempo útil.

Quando falamos de uma grande empresa multinacional na área de tecnologia da informação, como é o caso do Yahoo, existe um desafio e uma necessidade que é economizar grandes cifras em custos de hardware. A empresa utiliza a solução Hunk que é uma ferramenta que une o Hadoop com o Splunk com o objetivo de analisar seus dados em tempo real.

Na verdade o Yahoo entrou no mundo do Hadoop muito antes que a grande maioria dos usuários atuais. Inicialmente o Hadoop era utilizado para acelerar a indexação de páginas da web. Atualmente acredita-se que o maior cluster Hadoop do mundo pertence ao Yahoo, com 4500 nós e 100.000 CPUs em mais de 40.000 servidores. O Hadoop tem um papel muito importante na organização, principalmente nas tarefas de detecção e bloqueio de mensagens de spam. Adicionalmente o Yahoo utiliza a tecnologia Hadoop para personalização de produtos para os seus clientes, para proporcionar melhores resultados para anunciantes e também para realizar melhores e mais acertadas campanhas de marketing.

Outra gigante da área de tecnologia que também se beneficia do uso do Apache Hadoop é o Facebook. Com mais de 1 bilhão de usuários ativos, a empresa acumula grandes quantidades de dados e enfrenta um desafio: desenvolver uma solução escalável de armazenar e processar essa enorme quantidade de dados gerada todos os dias.

Processar os dados históricos é uma forma que o Facebook tem de melhorar a experiência de seus usuários. Atualmente o Facebook tem vários clusters Hadoop implantados, com o maior deles possuindo 2.500 cpus e 1 petabyte de disco, carregando mais de 250 gigabytes de dados compactados (mais de 2 terabytes descompactados) no sistema de arquivos do Hadoop todos os dias, e executando ainda centenas de tarefas sobre esses conjuntos de dados.

A lista de projetos que têm utilizado essa tecnologia dentro da empresa tem aumentado muito.  Esses projetos vão desde aqueles que geram dados estatísticos simples, até aqueles que são usados para combater spam, fraude ou algum tipo de conteúdo inadequado. Um dos motivos para o Facebook utilizar o Hadoop é a possibilidade de armazenar os dados no sistema de arquivos distribuídos (HDFS) em formato de tabelas. Esse é um paradigma familiar para os desenvolvedores e eles podem explorar esses dados utilizando a linguagem SQL, ou seja, quase da mesma forma como fariam em um bom SGBD tradicional. O Facebook se preocupa em usar as informações geradas por seus usuários para tomar suas decisões sobre melhorias no produto, e o Hadoop permitiu que a empresa usasse de maneira mais efetiva esses dados que estão à sua disposição.

O poder da análise de grandes massas de dados juntamente com a capacidade dos novos dispositivos, transformou profundamente a área dos negócios. Com a utilização do Hadoop, as empresas podem agora continuar armazenando efetivamente os seus dados, porém com um adicional que é a possibilidade de utilização de insights para a busca por vantagem competitiva.

O Hadoop tem a capacidade de fornecer às organizações uma forma econômica e eficiente de lidar com o volume crescente de dados. Depois de alguns anos, desde o seu lançamento, temos agora alguns casos de sucesso que atestam que o custo-benefício da adoção da tecnologia pode valer muito a pena.

Professor autor: João Paulo B. Nascimento