Destaques
Conheça os destaques de cada componente do TDP 2.0.0:
Serviço | Versão | Categoria | Destaques |
---|---|---|---|
Apache Airflow NOVIDADE |
Workflow |
Extensível framework Python para Engenheiros e Analistas de Dados desenvolvam pipelines dinâmicos e integrados, conectando diversas tecnologias do Ecossistema de Big Data; |
|
Interface web para configurar a frequência de execução dos pipelines, a sequência das etapas, as ações desejadas para determinados eventos, versionar fluxos, entre outras operações; |
|||
Visão completa dos pipelines ao longo do tempo, possibilitando a inspeção de logs e, se necessário, reexecução em caso de falha; |
|||
Apache Ambari |
Administração |
Maior escalabilidade e eficiência na gestão de grandes ambientes de Big Data com a atualização da interface gráfica, Ambari Server e Ambari Agent; |
|
Aprimoramento da usabilidade da interface web do Ambari |
|||
Possibilidade de executar operações em massa para a adição e exclusão de componentes e hosts; |
|||
Melhor rastreabilidade de operações administrativas; |
|||
Facilidade na configuração de SSO para o Ambari, Atlas e Ranger; |
|||
Apache Atlas |
Governança de Dados |
Maior robustez com o uso do JanusGraph DB para o armazenamento de metadados; |
|
Hook para captura de metadados e linhagem de dados do HBase; |
|||
Envio de notificações quando novos relacionamentos entre entidades são criados; |
|||
Mais opções para a definição de entidades, como soft-reference, atributos obrigatórios, entre outras; |
|||
Apache Druid NOVIDADE |
Analytics |
Análise de dados em tempo real, com o Druid é possível executar consultas SQL em grandes volumes de dados em poucos segundos, ou até milésimos de segundos; |
|
Armazenamento colunar, particionamento baseado em tempo, indexação ágil e agregação/sumarização automática de dados no momento da ingestão; |
|||
Carregamento automático de dados através de diversas integrações, tais como, Hadoop e Kafka; |
|||
Apache Hadoop |
Object Store e Resource Manager |
HDFS com suporte a Erasure Coding (EC), a mesma técnica utilizada para RAID de discos, e que fornece o mesmo nível de tolerância a falhas que a replicação, mas consumindo até 50% menos espaço;; |
|
HDFS com suporte a múltiplos NameNodes, sendo possível ter mais de um (1) Standby NameNode no Cluster. Dessa forma, é possível aumentar ainda mais a tolerança a falhas do HDFS em ambientes de missão crítica; |
|||
Melhorias na gestão e isolamento de recursos pelo YARN, assim como no monitoramento de tarefas; |
|||
Otimizações no MapReduce2 que fornecem até 30% mais desempenho em tarefas com ordenação/organização intensa; |
|||
Apache HBase |
NoSQL |
Procedure V2, ou procv2, disponível para a execução de múltiplas tarefas adiministrativas via HMasterv na ocorrência de falhas ou determinados eventos. As ferramentas de manipulação e verificação de Regiões, como _AssignmentManager e HBCK, agora também utilizam procv2; |
|
Maior eficiência no uso de memória RAM pelo RegionServer, visto que células escritas por operações de PUT não utilizam a JVM heap até que seja necessário realizar o flush do dado para o HFile; |
|||
Aumento do desempenho com compactações na memória. Os dados mantidos na MemStore são periodicamente reorganizados, amenizando assim a carga de I/O para acesso e escrita no HDFS. Além disso, o trafego de rede também é reduzido, já que é possível manter os dados por um período maior na memória; |
|||
Apache Hive |
Analytics |
Adição do recurso de Visão Materializada, ou seja, agora é possível não somente armazenar o resultado de visões, mas também realizar a atualização incremental desses resultados quando necessário. O uso de Visões Materializadas pode reduzir significativamente o custo de consultas complexas; |
|
Melhor gerenciamento dos recursos alocados para o Hive LLAP. Agora é possível dividir tais recursos em múltiplos pools; |
|||
Melhorias no desempenho e controle de tabelas transacionais (ACID); |
|||
Conectores JDBC e Kafka para tabelas externas; |
|||
Apache Kafka |
Streaming |
Maior resiliência dos Kafka Brokers através de melhorias no protocolo de replicação; |
|
Rebalanceamento incremental cooperativo entre os Workers através do novo protocolo de rebalanceamento do Kafka Connec, evitando assim uma interrupção total das tarefas em execução durante tal operação; |
|||
Melhorias arquiteturais possibilitando um número maior de partições por cluster, operação mais simples e uma camada de segurança mais rígida;Suporte a dashboards em tempo real com o interpretador JDBC; |
|||
Apache Knox |
Segurança |
Serviço de descoberta dinâmica de endpoints (URLs) em topologias de serviços suportados. Essa funcionalidade é exclusiva para Clusters Hadoop administrados pelo Ambari; |
|
Suporte para múltiplos Namenodes em um Cluster Federado; |
|||
Proxy para as UIs de novos componentes: YARN, Oozie, Spark 2, HDFS, MapReduce2 e Livy (apenas API); |
|||
Acesso por Login Único (SSO) para novos componentes: Zeppelin, YARN, MapReduce2, HDFS, Oozie; |
|||
Apache NiFi |
Batch e Streaming |
Versionamento de fluxos de dados através do NiFi Registry; |
|
Estratégias de balanceamento de carga e compressão disponíveis nas Conexões; |
|||
Opção para limpeza de todas filas de um determinado Grupo de Processadores; |
|||
Adição de Parâmetros de Contexto, novos Processadores, entre outras melhorias para o desenvolvimento e gestão de fluxos de dados; |
|||
Melhorias na coordenação e segurança do cluster; |
|||
Apache Oozie |
Workflow |
Inicialização de jobs via YARN ApplicationMaster; |
|
Reescrita completa do GraphGenerator. Com essa refatoração é possível exibir em dashboards fluxos de trabalho extensos e complexos; |
|||
Maior desempenho na escrita de metadados com a adição de índices em seu banco de dados; |
|||
Apache Phoenix |
SQL e NoSQL |
Implementação da "SYSTEM.LOG" - uma nova tabela de sistema que captura informações sobre as consultas em execução; |
|
Suporte aos comandos de GRANT e REVOKE, com atualização automática de índices ACL; |
|||
Suporte ao Hadoop 3.0.X e HBase 2.0.X; |
|||
Driver Python para acesso ao Phoenix por meio do Phoenix Query Server; |
|||
Apache Ranger |
Segurança |
Maior flexibilidade para a gestão de privilégios com a adição de zonas de segurança; |
|
Ranger Admin com suporte a alta disponibilidade; |
|||
Ranger Admin e REST API com suporte a doA; |
|||
Diversas melhorias nos plugins do Hive e Solr; |
|||
Apache Solr |
NoSQL |
Melhorias no suporte à documentos aninhados. As consultas agora podem aproveitar informações referentes as relações existentes entre os documentos; |
|
Melhorias nos mecanimos de indexação e consulta, como a adição de novos query parses, highlighting, padrões de busca, entre outros recursos; |
|||
Correção de vulnerabilidades; |
|||
Apache Spark |
Analytics, Ciência de Dados, Graph e Streaming |
Execução adaptativa, ou seja, o Spark é capaz de melhorar automaticamente o plano de execução ainda durante o processamento da tarefa, conforme estatísticas coletadas constantemente; |
|
Remoção dinâmica de dados desnecessários ainda durante a execução de uma tarefa baseado em informações adicionais coletadas constantemente. Esse recurso pode evitar a leitura de dados não úteis para o resultado final, antes mesmo de JOINs. |
|||
Nova interface para as Pandas UDFs que aproveita as type hints e promove o desenvolvimento de um código mais Pythonico e auto-descritivo; |
|||
Melhor aderência ao padrão ANSI SQL e adição de novos hints para as estratégias de JOIN; |
|||
Apache Superset NOVIDADE |
Visualização de Dados |
Criação de gráficos dinâmicos de forma simples e ágil, sem a necessidade de várias linhas de código; |
|
Definição rápida de dimensões e métricas customizadas por meio de uma camada semântica leve e intuitiva; |
|||
Área de cache de dados para agilizar o carregamento dos dados, além de ampla variedade de belas visualizações para monitoramento e exibição de dados; |
|||
Apache Zeppelin |
Notebook |
Suporte a dashboards em tempo real com o interpretador JDBC; |
|
Suporte a ambientes Conda com o interpretador Python em modo de execução distribuída (YARN); |
|||
Novos interpretadores (KSQL, MongoDB, Shiny, entre outros) e diversas melhorias de segurança e integração; |