Criação do Cluster e Instalação dos Componentes

Após a instalação do serviço do Apache Ambari, o próximo passo é a criação do Cluster de Big Data, incluindo a instalação dos demais serviços/componentes desejados.

Vamos Começar!

  1. Utilize um browser para acessar a interface web do Ambari disponível no IP/hostname da máquina do Ambari Server, porta 8080. Por exemplo:

    http://192.168.56.100:8080
Página de login do Ambari
Figure 1. Página de login do Ambari
Por padrão, o usuário / senha de acesso são, respectivamente, admin / admin.
  1. No primeiro acesso será exibida uma página inicial de boas vindas. Para iniciar o processo de implantação do Cluster clique no botão LAUNCH INSTALL WIZARD:

Página de Boas Vindas do Ambari
Figure 2. Página de Boas Vindas do Ambari
  1. Informe um nome para o Cluster e clique em NEXT:

Nome do Cluster
Figure 3. Nome do Cluster

Seleção da Versão

  1. Selecione a versão do TDP desejada:

Versão do TDP
Figure 4. Versão do TDP
  1. Selecione o tipo do repositório de pacotes (Public ou Local) e informe a URL para Components (TDP-2.2.0) e Utils (TDP-UTILS-2.2.0):

Repositórios de pacotes
Figure 5. Repositórios de pacotes
  1. Na sequência, clique em NEXT.

Caso opte pela utilização do Repositório Público de Pacotes da Tecnisys, as credenciais de acesso (usuário e senha) devem ser informados diretamente na URL, conforme demonstrado na imagem acima.

Opções de Instalação

  1. Em Target Hosts, infome o Fully Qualified Domain Name (FQDN) dos hosts (máquinas) que irão compor o Cluster.

    O Ambari Server precisa ter acesso às máquinas informadas. Certifique-se que a resolução do FQDN das máquians ocorra corretamente, seja através de um Servidor de DNS (recomendado) ou localmente (arquivo /etc/hosts).

Informe as máquinas do Cluster
Figure 6. Informação dos hosts
Em Target Hosts, é possível informar as máquinas usando Expressões (Pattern Expressions). O exemplo apresentado na figura acima ficaria assim: big-tdp[1-7].dev-geep.local
  1. Em Hosts Registration Information, selecione como as máquinas do Cluster serão registradas.

    1. Caso opte por fornecer a chave SSH privada da máquina do Ambari Server para o registro automático das máquinas do Cluster, cole o seu conteúdo no campo de texto abaixo ou faça o upload de seu arquivo. Na sequência, confirme o usuário e a porta SSH a serem utilizados.
      Além disso, certifique-se que a Relação de Confiança (a troca das chaves SSH) tenha sido realizada corretamente, sendo possível, a partir da máqina do Ambari Server, acessar todas as máquinas via SSH sem a informação da senha do usuário do daemon do Ambari Server (por padrão, root).

    2. Caso opte por realizar o registro manual das máquinas, faça você mesmo a instalação do Ambari Agent em todas as máquinas antes de prosseguir.

Selecione a opção de registro dos hosts
Figure 7. Registro dos hosts
  1. Na sequência, clique em REGISTER AND CONFIRM.

A chave SSH privada do tipo RSA pode ser obtida executando o seguinte comando:

cat ~/.ssh/id_rsa

Para instalar manualmente o Ambari Agent:

yum install ambari-agent

Configuração da Relação de Confiança

  1. Na máquina do Ambari Server, gere uma chave SSH privada:

    ssh-keygen
  2. Copie a chave SSH para TODAS as máquinas do Cluster. Por exemplo:

    ssh-copy-id tdp-mn01.tecnisys.com.br
  3. Teste o acesso via SSH à TODAS as máquinas do Cluster sem a informação da senha do usuário. Por exemplo:

Confirmação dos Hosts

Após a instalação do Ambari Agent em todas as máquinas informadas na etapa anterior, o Ambari realiza uma série de verificações para garantir que os pré-requisitos foram atendidos (JDK, Firewall, THP, entre outros).

Confirmação dos hosts
Figure 8. Confirmação dos hosts

Eventuais erros precisam ser corrigidos e a verificação reexecutada para prosseguir.

Clique em NEXT para avançar.

Alertas do tipo Package Issues, referentes aos pacotes do PostgreSQL já instalados, podem ser desconsiderados.

Seleção dos Serviços

  1. Selecione o serviço responsável pala camada de armazenamento do Cluster.

Seleção do serviço da camada de armazenamento
Figure 9. Seleção do serviço da camada de armazenamento
  1. Selecione os demais serviços do Cluster.

Seleção dos demais serviços
Figure 10. Seleção dos demais serviços
Recomendamos, inicialmente, a seleção dos serviços básicos, como YARN + MapReduce2, Tez, Zookeeper, Infra Solr e Ambari Metrics. Os demais serviços, caso necessário, podem ser adicionados após a criação do Cluster. Assim é mais fácil lidar com possíveis problemas nas instalação dos componentes.
O Cluster requer determinados serviços para operar plenamente, como por exemplo, o Apache Ranger para a camada de segurança e o Apache Atlas para a camada de governança de dados. Logo, o Ambari apresentará alertas caso alguma funcionalidade venha a ser limitada pela não instalação de um serviço específico. Ignore o alerta (clique no botão PROCEED ANYWAY) caso o serviço em questão venha a ser instalado futuramente, ou caso esteja ciente de tal limitação.
  1. Na sequência, clique em NEXT.

Atribuição dos Componentes Masters

  1. Indique a máquina de cada um dos componentes Masters (em geral, componentes de gerenciamento e coordenação) dos serviços selecionados. Observe que à direita da página é apresentado a organização dos componentes por máquina.

Atribuição dos componentes Masters
Figure 11. Atribuição dos componentes Masters

A organização deve ser feita considerando as necessidades de cada componente e os recursos disponíveis em cada máquina. Algumas recomendações podem ser observadas:

  • Evite instalar na máquina do Ambari Server serviços que não sejam de Edge ou Gateway. Se possível, deixe uma máquina dedicada para o Ambari Server.

  • Componentes responsáveis pela alta disponibilidade de serviços devem ser instalados em máquinas distintas. Por exemplo, NameNode e Secondary NameNode (SNameNode).

  • Instale o Zookeper em número ímpar de máquinas, maior que um (01). Ou seja, inicialmente, em pelo menos 3 máquinas.

  1. Na sequência, clique em NEXT.

Atribuição dos Componentes Slaves e Clients

  1. Indique em quais máquinas serão instalados os componentes Slaves (em geral, componentes de armazenamento e processamento) e Clients.

Atribuição dos componentes Slaves e Clients
Figure 12. Atribuição dos componentes Slaves e Clients
Sempre que possível, evite instalar componentes Slaves em máquinas de componentes Masters.
  1. Na sequência, clique em NEXT.

Customização dos Serviços

Nessa etapa devem ser definidas as credenciais de acesso, dados de conexão à bancos de dados, diretórios, usuários, entre outras informações próprias de cada serviço e necessárias para a instalação.

Resolva as pendências de todas as seções dessa etapa e clique em NEXT para avançar.

Credenciais

Ilustrando essa seção temos o Grafana, componente do Ambari Metrics, que requer a definição do usuário e senha de adminsitração da ferramenta:

Definição das credenciais de administração do Grafana
Figure 13. Definição das credenciais de administração do Grafana

Bancos de Dados

Ilustrando essa seção temos o Hive, o qual requer um banco de dados para persistência de metadados. Nesse exemplo, informamos os dados de conexão para uma instância PostgreSQL existente:

Definição dos dados de conexão do banco de dados do Hive
Figure 14. Definição dos dados de conexão do banco de dados do Hive
Clique no botão TEST CONNECTION para testar a conexão com o banco de dados informado.

Diretórios

Nesta seção é possível customizar os diretórios dos serviços, como por exemplo, os diretórios de dados dos DataNodes, os diretórios da namespace do NameNode, diretórios de log, etc.

Definição dos diretórios dos serviços"
Figure 15. Definição dos diretórios dos serviços
Se possível, use dispositivos de armazenamento (discos, SSD, entre outrs), volumes e diretórios exclusivos para os arquivos dos DataNodes, NameNodes, JournalNodes, NodeManagers, Timeline Services e Zookeeper.

Usuários dos Serviços

Nesta seção é possível customizar os usuários de sistema operacional que serão criados para cada serviço.

Definição dos usuários dos serviços"
Figure 16. Definição dos usuários dos serviços

Todas as Configurações

Esta última seção dá acesso a todas as configurações dos serviços a serem instalados. Aproveite para conferir e ajustar o que for necessário.

Todas as configurações dos serviços"
Figure 17. Todas as configurações dos serviços

Caso tenha esquecido alguma configuração, não se preocupe. Após a instalação todas essas configurações também estarão disponíveis para alteração via Ambari.

Revisão das Configurações

Nessa etapa, a última antes da criação do Cluster, é apresentada uma revisão das configurações definidas. Verifique cuidadosamente todas as informações e, sendo necessário alterar alguma configuração, utilize a área de navegação lateral esquerda para retornar na etapa desejada.

Revisão da configuração antes da instalação
Figure 18. Revisão da configuração antes da instalação
Utilize o botão PRINT para gerar um relatório da instalação e o botão GENERATE BLUEPRINT para gerar um arquivo XML com todas as configurações definidas e que, futuramente, pode ser utilizado para recriar o Cluster via Ambari REST API.

Para iniciar a implantação do Cluster, clique no botão DEPLOY.

Instalação, Iniciação e Teste dos Serviços

Nessa etapa os serviços serão instalados, iniciados e testados, respeitando as dependências e integrações de cada um.

Instalação dos serviços
Figure 19. Instalação dos serviços
Clique no link do texto da coluna Message para visualizar as tarefas programadas para cada máquina.

Na ocorrência de falhas, o Ambari pode interromper a implantação, sendo possível retomá-la após a correção do problema clicando no botão RETRY.

No entanto, de acordo com o progresso já realizado, o Ambari pode concluir a implantação e disponibilizar o Cluster como ele está, mesmo que nem todos os componentes de um determinado serviço tenham sido instalados, iniciados ou testados com sucesso. Nesse caso, após criado o Cluster é possível, pelo próprio Ambari, alterar as configurações ou remover e instalar novamente apenas o serviço problemático.

Finalizada a implantação, clique em NEXT.

Instalação
Figure 20. Instalação, Iniciação e Testes finalizados

Sumário

Na última etapa do processo é apresentado um resumo da implementação.

Clique no botão COMPLETE para finalizar a operação e acessar a área de adminsitração do Cluster criado.

Área de administração do Cluster
Figure 21. Área de administração do Cluster