Qual é a diferença entre hdfs e nas?

HDFS é o principal sistema de armazenamento do Hadoop. O HDFS cria para armazenar arquivos muito grandes em execução em um cluster de hardware comum. Enquanto o NAS (armazenamento conectado à rede) é um servidor de armazenamento de dados de computador no nível de arquivo. O NAS fornece acesso a dados para um grupo heterogêneo de clientes.

Também no HDFS, distribua blocos por todas as máquinas em um cluster Hadoop. Armazenamentos de dados NAS em um hardware dedicado.

E o HDFS foi projetado para funcionar com o MapReduce Framework. Na computação do MapReduce Framework, mova para os dados em vez de Dados para computação. O NAS não é adequado para o MapReduce, pois armazena dados separadamente dos cálculos.

Olá, gostaria de compartilhar algumas das principais diferenças entre HDFS e NAS

1. No HDFS, os blocos de dados são distribuídos pelas unidades locais de todas as máquinas em um cluster. Enquanto que no NAS os dados são armazenados em hardware dedicado.

2.HDFS foi projetado para funcionar com o MapReduce System, pois os cálculos são movidos para dados. O NAS não é adequado para o MapReduce, pois os dados são armazenados separadamente dos cálculos.

O HDFS é executado em um cluster de máquinas e fornece redundância usando um protocolo de replicação. Enquanto o NAS é fornecido por uma única máquina, portanto, não fornece redundância de dados.

Saudações,

Priyanka,

Especialista do Hadoop

HDFS:

HDFS é um sistema de arquivos distribuído

que fornece acesso de alto desempenho aos dados nos clusters do Hadoop. Como outras tecnologias relacionadas ao Hadoop, o HDFS se tornou uma ferramenta essencial para gerenciar pools de big data e dar suporte

aplicativos de análise de big data.

Como o HDFS geralmente é implantado em hardware comum de baixo custo, as falhas do servidor são comuns. O sistema de arquivos foi projetado para ser altamente tolerante a falhas, facilitando a rápida transferência de dados entre nós de computação e permitindo que os sistemas Hadoop continuem em execução se um nó falhar. Isso diminui o risco de falha catastrófica, mesmo no caso de falha de vários nós.

NAS:

Network Attached Storage (comumente abreviado para NAS)

são dispositivos de armazenamento em disco rígido que você pode conectar à sua rede doméstica ou do escritório. Eles permitem que vários computadores em uma rede compartilhem o mesmo espaço de armazenamento de uma só vez.

o acesso ao dispositivo NAS é feito através de uma rede de computadores (geralmente via TCP / IP), em vez de ser conectado diretamente ao computador (como em discos rígidos internos ou unidades USB / SCSI externas).

Os dispositivos NAS recebem um endereço IP e são acessados ​​pelos clientes (PCs ou laptops) por meio de um servidor que atua como um gateway para os dados (esse servidor está dentro do dispositivo NAS e, portanto, os dispositivos NAS geralmente são chamados de servidores NAS).

Verificação de saída -

Diferença entre os dez principais entre Apache Hbase e Hive

1)

HDFS

-

O sistema de arquivos distribuídos do Hadoop é o principal sistema de armazenamento do Hadoop. O HDFS cria para armazenar arquivos muito grandes em execução em um cluster de hardware comum. Enquanto

Armazenamento conectado à rede

(NAS) é um servidor de armazenamento de dados de computador em nível de arquivo. O NAS fornece acesso a dados para um grupo heterogêneo de clientes.

2)

O HDFS distribui blocos por todas as máquinas em um

Cluster do Hadoop

. Enquanto NAS, os dados são armazenados em um hardware dedicado.

3)

O Hadoop HDFS foi projetado para funcionar com

MapReduce

Estrutura. Na computação do MapReduce Framework, mova para os dados em vez de Dados para computação. O NAS não é adequado para o MapReduce, pois armazena dados separadamente dos cálculos.

4)

O Hadoop HDFS é executado no hardware básico do cluster, que é econômico. Enquanto um NAS é um dispositivo de armazenamento high-end que inclui alto custo.

Graças ao A2A.

Um sistema de arquivos distribuídos é projetado principalmente para armazenar uma grande quantidade de dados e fornecer acesso a esses dados para muitos clientes distribuídos em uma rede. Existem vários sistemas de arquivos distribuídos que resolvem esse problema de maneiras diferentes. O mais antigo e muito popular é o NFS - Network File System.

Mas o NFS tem muitas limitações como um sistema de arquivos distribuído.

1. Os arquivos residem em uma única máquina.

2. Ele não fornece nenhuma garantia de confiabilidade se a máquina cair, isso significa que ela armazenará apenas o máximo de informações que puderem ser armazenadas em uma máquina.

3. Finalmente, como todos os dados são armazenados em uma única máquina, todos os clientes devem ir a essa máquina para recuperar seus dados. Isso pode sobrecarregar o servidor se um grande número de clientes precisar ser tratado. Os clientes também devem sempre copiar os dados em suas máquinas locais antes de poderem operar com eles.

Para superar as desvantagens acima, surgiu um sistema de arquivos - HDFS (Hadoop Distributed File System.)

1. O HDFS foi projetado para armazenar uma quantidade muito grande de informações (terabytes ou petabytes). Isso requer a divulgação dos dados por um grande número de máquinas. Ele também suporta tamanhos de arquivo muito maiores que o NFS.

O HDFS deve armazenar dados de maneira confiável. Se máquinas individuais no cluster não funcionarem corretamente, os dados ainda deverão estar disponíveis.

2. O HDFS deve fornecer acesso rápido e escalável a essas informações. Deve ser possível atender um número maior de clientes simplesmente adicionando mais máquinas ao cluster.

3. O HDFS deve se integrar bem ao Hadoop MapReduce, permitindo que os dados sejam lidos e computados localmente, quando possível.

Mas, o HDFS também tem algumas limitações.

1. O HDFS é otimizado para fornecer desempenho de leitura de streaming; isso ocorre às custas de tempos de busca aleatórios para posições arbitrárias em arquivos.

2. Os dados serão gravados no HDFS uma vez e depois lidos várias vezes; atualizações para arquivos depois que eles já foram fechados não são suportadas.

3. Devido ao grande tamanho dos arquivos e à natureza seqüencial das leituras, o sistema não fornece um mecanismo para armazenamento em cache local de dados.

4. Presume-se que as máquinas individuais falhem com frequência, de forma permanente e intermitente. O cluster deve ser capaz de suportar a falha completa de várias máquinas, possivelmente muitas acontecendo ao mesmo tempo.

Espero que você encontre a diferença ..