Destaques

Conheça os destaques de cada componente do TDP 2.0.0:

Tabela A. Destaques por componente
Serviço Versão Categoria Destaques

Apache Airflow NOVIDADE

2.5.1

Workflow

Extensível framework Python para Engenheiros e Analistas de Dados desenvolvam pipelines dinâmicos e integrados, conectando diversas tecnologias do Ecossistema de Big Data;

Interface web para configurar a frequência de execução dos pipelines, a sequência das etapas, as ações desejadas para determinados eventos, versionar fluxos, entre outras operações;

Visão completa dos pipelines ao longo do tempo, possibilitando a inspeção de logs e, se necessário, reexecução em caso de falha;

Apache Ambari

2.7.6

Administração

Maior escalabilidade e eficiência na gestão de grandes ambientes de Big Data com a atualização da interface gráfica, Ambari Server e Ambari Agent;

Aprimoramento da usabilidade da interface web do Ambari

Possibilidade de executar operações em massa para a adição e exclusão de componentes e hosts;

Melhor rastreabilidade de operações administrativas;

Facilidade na configuração de SSO para o Ambari, Atlas e Ranger;

Apache Atlas

2.2.0

Governança de Dados

Maior robustez com o uso do JanusGraph DB para o armazenamento de metadados;

Hook para captura de metadados e linhagem de dados do HBase;

Envio de notificações quando novos relacionamentos entre entidades são criados;

Mais opções para a definição de entidades, como soft-reference, atributos obrigatórios, entre outras;

Apache Druid NOVIDADE

25.0.0

Analytics

Análise de dados em tempo real, com o Druid é possível executar consultas SQL em grandes volumes de dados em poucos segundos, ou até milésimos de segundos;

Armazenamento colunar, particionamento baseado em tempo, indexação ágil e agregação/sumarização automática de dados no momento da ingestão;

Carregamento automático de dados através de diversas integrações, tais como, Hadoop e Kafka;

Apache Hadoop

3.2.3

Object Store e Resource Manager

HDFS com suporte a Erasure Coding (EC), a mesma técnica utilizada para RAID de discos, e que fornece o mesmo nível de tolerância a falhas que a replicação, mas consumindo até 50% menos espaço;;

HDFS com suporte a múltiplos NameNodes, sendo possível ter mais de um (1) Standby NameNode no Cluster. Dessa forma, é possível aumentar ainda mais a tolerança a falhas do HDFS em ambientes de missão crítica;

Melhorias na gestão e isolamento de recursos pelo YARN, assim como no monitoramento de tarefas;

Otimizações no MapReduce2 que fornecem até 30% mais desempenho em tarefas com ordenação/organização intensa;

Apache HBase

2.3.4

NoSQL

Procedure V2, ou procv2, disponível para a execução de múltiplas tarefas adiministrativas via HMasterv na ocorrência de falhas ou determinados eventos. As ferramentas de manipulação e verificação de Regiões, como _AssignmentManager e HBCK, agora também utilizam procv2;

Maior eficiência no uso de memória RAM pelo RegionServer, visto que células escritas por operações de PUT não utilizam a JVM heap até que seja necessário realizar o flush do dado para o HFile;

Aumento do desempenho com compactações na memória. Os dados mantidos na MemStore são periodicamente reorganizados, amenizando assim a carga de I/O para acesso e escrita no HDFS. Além disso, o trafego de rede também é reduzido, já que é possível manter os dados por um período maior na memória;

Apache Hive

3.1.2

Analytics

Adição do recurso de Visão Materializada, ou seja, agora é possível não somente armazenar o resultado de visões, mas também realizar a atualização incremental desses resultados quando necessário. O uso de Visões Materializadas pode reduzir significativamente o custo de consultas complexas;

Melhor gerenciamento dos recursos alocados para o Hive LLAP. Agora é possível dividir tais recursos em múltiplos pools;

Melhorias no desempenho e controle de tabelas transacionais (ACID);

Conectores JDBC e Kafka para tabelas externas;

Apache Kafka

2.8.2

Streaming

Maior resiliência dos Kafka Brokers através de melhorias no protocolo de replicação;

Rebalanceamento incremental cooperativo entre os Workers através do novo protocolo de rebalanceamento do Kafka Connec, evitando assim uma interrupção total das tarefas em execução durante tal operação;

Melhorias arquiteturais possibilitando um número maior de partições por cluster, operação mais simples e uma camada de segurança mais rígida;Suporte a dashboards em tempo real com o interpretador JDBC;

Apache Knox

1.6.1

Segurança

Serviço de descoberta dinâmica de endpoints (URLs) em topologias de serviços suportados. Essa funcionalidade é exclusiva para Clusters Hadoop administrados pelo Ambari;

Suporte para múltiplos Namenodes em um Cluster Federado;

Proxy para as UIs de novos componentes: YARN, Oozie, Spark 2, HDFS, MapReduce2 e Livy (apenas API);

Acesso por Login Único (SSO) para novos componentes: Zeppelin, YARN, MapReduce2, HDFS, Oozie;

Apache NiFi

1.19.0

Batch e Streaming

Versionamento de fluxos de dados através do NiFi Registry;

Estratégias de balanceamento de carga e compressão disponíveis nas Conexões;

Opção para limpeza de todas filas de um determinado Grupo de Processadores;

Adição de Parâmetros de Contexto, novos Processadores, entre outras melhorias para o desenvolvimento e gestão de fluxos de dados;

Melhorias na coordenação e segurança do cluster;

Apache Oozie

5.2.1

Workflow

Inicialização de jobs via YARN ApplicationMaster;

Reescrita completa do GraphGenerator. Com essa refatoração é possível exibir em dashboards fluxos de trabalho extensos e complexos;

Maior desempenho na escrita de metadados com a adição de índices em seu banco de dados;

Apache Phoenix

5.1.2

SQL e NoSQL

Implementação da "SYSTEM.LOG" - uma nova tabela de sistema que captura informações sobre as consultas em execução;

Suporte aos comandos de GRANT e REVOKE, com atualização automática de índices ACL;

Suporte ao Hadoop 3.0.X e HBase 2.0.X;

Driver Python para acesso ao Phoenix por meio do Phoenix Query Server;

Apache Ranger

2.1.0

Segurança

Maior flexibilidade para a gestão de privilégios com a adição de zonas de segurança;

Ranger Admin com suporte a alta disponibilidade;

Ranger Admin e REST API com suporte a doA;

Diversas melhorias nos plugins do Hive e Solr;

Apache Solr

8.11.1

NoSQL

Melhorias no suporte à documentos aninhados. As consultas agora podem aproveitar informações referentes as relações existentes entre os documentos;

Melhorias nos mecanimos de indexação e consulta, como a adição de novos query parses, highlighting, padrões de busca, entre outros recursos;

Correção de vulnerabilidades;

Apache Spark

3.1.3

Analytics, Ciência de Dados, Graph e Streaming

Execução adaptativa, ou seja, o Spark é capaz de melhorar automaticamente o plano de execução ainda durante o processamento da tarefa, conforme estatísticas coletadas constantemente;

Remoção dinâmica de dados desnecessários ainda durante a execução de uma tarefa baseado em informações adicionais coletadas constantemente. Esse recurso pode evitar a leitura de dados não úteis para o resultado final, antes mesmo de JOINs.

Nova interface para as Pandas UDFs que aproveita as type hints e promove o desenvolvimento de um código mais Pythonico e auto-descritivo;

Melhor aderência ao padrão ANSI SQL e adição de novos hints para as estratégias de JOIN;

Apache Superset NOVIDADE

2.0.1

Visualização de Dados

Criação de gráficos dinâmicos de forma simples e ágil, sem a necessidade de várias linhas de código;

Definição rápida de dimensões e métricas customizadas por meio de uma camada semântica leve e intuitiva;

Área de cache de dados para agilizar o carregamento dos dados, além de ampla variedade de belas visualizações para monitoramento e exibição de dados;

Apache Zeppelin

0.10.0

Notebook

Suporte a dashboards em tempo real com o interpretador JDBC;

Suporte a ambientes Conda com o interpretador Python em modo de execução distribuída (YARN);

Novos interpretadores (KSQL, MongoDB, Shiny, entre outros) e diversas melhorias de segurança e integração;