Topo
pesquisar

Hadoop e sua importância no mundo atual

Administração

Confira aqui Hadoop e sua importância no mundo atual!

RESUMO

Atualmente, vivemos grandes avanços tecnológicos e fazer o tratamento dessas informações e lidar com o curto tempo de resposta das mesmas é algo de extrema importância. Esse trabalho aborda uma das ferramentas para se trabalhar com excelência o Big Data: o Apache Hadoop, popularmente conhecido como: Hadoop.

Palavras-Chave: Hadoop, Big Data, Tecnologia, Atualidade.

ABSTRACT

Currently , we live great technological advances and make the treatment of such information and deal with the same short the response time is something of utmost importance. This paper addresses one of the tools for working with excellence Big Data : Apache Hadoop , popularly known as Hadoop .

Keywords : Hadoop , Big Data , Technology , News.

  1. INTRODUÇÃO

Atualmente, tudo o que compõe nosso dia a dia utiliza a tecnologia de forma direta ou indireta. Muito se deve ao fato de termos infinitas informações e necessitarmos de um melhor tratamento e rapidez por retorno das mesmas. Com a proposta de gerenciar esse fluxo de dados, dando um retorno mais rápido e eficiente, surge o Big Data.

“A proposta de uma solução de Big Data é a de oferecer uma abordagem ampla no tratamento do aspecto cada vez mais "caótico" dos dados para tornar as referidas aplicações e todas as outras mais eficientes e precisas. Para tanto, o conceito considera não somente grandes quantidades de dados, a velocidade de análise e a disponibilização destes, como também a relação com e entre os volumes.” (ALECRIM, 2013, p. 10)

Muitas empresas investiram bastante para atingir essa proposta do Big Data, entretanto, os retornos só podem ser notados atualmente e mesmo assim, estão em constante aperfeiçoamento.

Com isso, surge a seguinte pergunta: Qual é a melhor plataforma para se utilizar esse conceito de Big Data? Afinal, o mesmo aborda soluções que precisam trabalhar com distribuição de processamento e elasticidade, isto é, suportar aplicações com volumes de dados que crescem substancialmente em curto tempo. Não encontramos essas soluções nos bancos de dados convencionais, como: Oracle e MySQL, por exemplo.

A partir daí, o Big Data origina dois outros termos: Hadoop e MapReduce.

  1. HADOOP X MAP-REDUCE

Também chamado de Apache Hadoop, o Hadoopé um projeto de alto nível da empresa Apache Software Foundation, que é construído frequentemente por contribuintes para uma plataforma de software livre na linguagem de programação JAVA. É o mais conhecido e popular sistema para gestão de Big Data. Ele surgiu a partir do MapReduce e do GoogleFS (GFS).

“Hadoop é projetado para garantir larga escalabilidade partindo de um único servidor até um cluster com milhares de máquinas, cada uma oferecendo capacidade para proporcionar maior disponibilidade, a própria foi concebida para detectar e tratar falhas na camada de aplicação, de modo a fornecer um serviço com alta disponibilidade baseado em um grid de computadores.” (Yahoo, 2014, p.1)

O MapReduce é um paradigma de programação introduzido pelo Google para processar e analisar enormes conjuntos de dados. Todos os programas que são desenvolvidos nesse paradigma realizam o processamento paralelo de conjuntos de dados. Portanto, podem ser executados em servidores sem muito esforço. A razão para a escalabilidade desse paradigma é a natureza intrinsecamente distribuída do funcionamento da solução. Uma grande tarefa é dividida em várias micro-tarefas que são executadas em paralelo em máquinas distintas e então combinadas para chegar à solução da tarefa maior que deu início a todas as outras.

Alguns exemplos de uso do Hadoop são: analisar padrões de usuários em sites de e-commerce e sugerir novos produtos que eles possam comprar. A NASA, o Twitter e o Netflix são grandes empresas que utilizam dessa plataforma.

  1. COMPONENTES DO HADOOP

Existem dois componentes principais no Hadoop: Hadoop Distributed File System (HDFS), que é o armazenamento de arquivo, e o já falado aqui MapReduce. Abaixo estão todos e as diferenças de cada um:

  • HDFS: Espalha os dados na quantidade necessária para você. Tem algumas partes móveis. O Datanodes armazena seus dados e o Namenode controla onde suas coisas são armazenadas.
  • MapReduce: Modelo programático para Hadoop. Há duas fases, chamados de Map e Reduce.
  • Hadoop Streaming: É um utilitário que permite ao MapReduce codificar em qualquer linguagem: C, Perl, Python, C++, Bash etc. Os exemplos incluem um mapeador Python e um redutor AWK.
  • Hive e Hue: Você pode escrever em SQL e fazer com que o Hive o converta para um trabalho do MapReduce. Já o Hue proporciona uma interface gráfica baseada no navegador para executar seu trabalho de Hive.
  • Pig: Ambiente de programação de nível superior para realização da codificação de MapReduce. A linguagem Pig é chamada Pig Latin.
  • Sqoop: Fornece transferência de dados bidirecional entre o Hadoop e seu banco de dados relacional favorito.
  • Oozie: Gerencia o fluxo de trabalho do Hadoop.
  • HBase: Um armazenamento super-escalável e de valor chave. Não é um banco de dados relacional, apesar do nome HBase.
  • FlumeNG: Um loader em tempo real para transmissão de seus dados para o Hadoop. Ele armazena dados no HDFS e HBase.
  • Whirr: Fornecimento na nuvem para Hadoop. É possível iniciar um cluster em apenas alguns minutos com um arquivo de configuração muito pequeno.
  • Mahout: Aprendizado automático para Hadoop. Usado para análise preditiva e outras análises avançadas.
  • Fuse: Faz o sistema HDFS parecer com um sistema de arquivos regular, de modo que você possa usar ls, rm, cd e outros em dados do HDFS.
  • Zookeeper: Gerencia a sincronização para o cluster.
  1. CONCLUSÃO

Apesar de muitos elogios, o Hadoop, apresenta alguns problemas como a fiabilidade e o monitoramento de tarefas.

Não pare agora... Tem mais depois da publicidade ;)

“O tempo para obter dados é bastante rápido, mas todos reclamam da grande latência na execução de consultas”. (McKinley, 2014, p.3)

Em busca de melhorias para a plataforma, contribuintes estão testando uma nova versão que promete ter a camada de Map-Reduce recodificada de extremo a extremo, além de uma reescrita completa de toda a lógica de armazenamento e da camada de HDFS.

A nova versão se chama Hadoop 2.0 e terá o foco voltado para a escala e inovação, baseada na Yarn (próxima geração da Map-Reduce) e em recursos de federação. A Yarn permitirá aos usuários adicionar os seus próprios modelos de computação para não ficarem presos à Map-Reduce.

“Temos boas expectativas de que a comunidade invente muitas maneiras de usar a Hadoop.” (BALDESCHWIELER, 2012, p. 4)

“As adoções previstas incluem aplicações de tempo real e algoritmos de aprendizagem artificial, além das operações de armazenamento com capacidade de expansão.” (COMPUTERWORLD, 2012, p.4)

A versão 2.0 permite a constituição de clusters sem tempo de inatividade, na qual prevê também o armazenamento escalável. Portanto, o otimismo é grande com relação a essa nova versão, pois através dela podem-se aperfeiçoar os erros apresentados na versão anterior. Tornando cada vez mais viável para as empresas utilizarem dessa plataforma livre.

  1. REFERÊNCIAS

DE SANTANA, Otávio Gonçalves, Introdução ao Conceito de Big Data, DEVMEDIA, 2013. Disponível em:

Acessado em 27 nov. 2014, 18:46:31

ALECRIM, Emerson, O que é Big Data? , INFOWESTER, 2013. Disponível em: Acessado em 28 nov. 2014, 16:50:01

O que é Big Data? , Diálogo TI, Intel. Disponível em: > Acessado em 27 nov. 2014, 11:12:30

Infográfico: O que é Big Data? , IBM. Disponível em: Acessado em 26 nov. 2014, 15:10:15

Big Data, InfoEscola. Disponível em: Acessado em 29 nov. 2014, 10:18:09

ANDERSON, Christiano. Como aprender Hadoop facilmente, Christiano Anderson, 2014. Disponível em: < http://christiano.me/como-aprender-hadoop-facilmente/> Acessado em 29 nov. 2014, 11:13:20

MARCHESINI, Adriele, Big Data: entenda o que é o Hadoop e como ele afeta o Data Warehouse, IT Web, 2012. Disponível em: <http://www.itforum365.com.br/noticias/detalhe/59818/big-data-entenda-o-que-e-o-hadoop-e-como-ele-afeta-o-data-warehouse> Acessado em 28 nov. 2014, 16:52:04

Hadoop, iMasters Box, 2014. Disponível em: Acessado em 28 nov. 2014, 18:09:12

AVOYAN, Hovhannes, iMasters Box, 2014. Big Data e Hadoop – o que é tudo isso? Disponível em: Acessado em 26 nov. 2014, 17:24:17

BUTLER, Brandon, Network World, Hadoop: Nove fornecedores que você deveria conhecer, 2014. Disponível em: Acessado em 29 nov. 2014, 13:30:15

Hadoop, Wikipedia, 2014. Disponível em: Acessado em 29 nov. 2014, 11:17:58

GASPAROTTO, Henrique Machado, Hadoop MapReduce: Introdução a Big Data, 2014. Disponível em: Acessado em 26 nov. 2014, 15:33:11

Hadoop reforça a importância de Big Data, COMPUTERWORLD, 2012. Disponível em: /21/hadoop-reforca-a-importancia-de-big-data/> Acessado em 26 nov. 2014, 17:35:26

LURIE, Marty, Software Big Data livre para os Impacientes, Parte 1: Tutorial de Hadoop: Hello World com Java, Pig, Hive, Flume, Fuse, Oozie e Sqoop com Informix, DB2 e MySQL, IBM, 2012. Disponível em:

Acessado em 25 nov. 2014, 20:42:52

Orientador: Rafael Monteiro Ribeiro


Publicado por: Marcelle de Souza Bayão

O texto publicado foi encaminhado por um usuário do Brasil Escola, através do canal colaborativo Meu Artigo. Para acessar os textos produzidos pelo site, acesse: http://www.brasilescola.com.
  • SIGA O BRASIL ESCOLA
MeuArtigo Brasil Escola