Destaques

Conheça os destaques de cada componente do TDP 2.1.0:

Tabela A. Destaques por componente
Serviço Versão Categoria Destaques

Apache Airflow

2.5.3

Workflow

Correções de bugs e inconsistências.

Campos de data e hora passados como parâmetros de API ou Params codificados por URL.

Default para [webserver] expose hostname alterado para False fazendo com que administradores optem por expor nomes de host de servidores web aos usuários finais.

Apache Ambari

2.7.6

Administração

Adição do processo automatizado de atualização da stack do TDP.

Adição da seção de configuração do Iceberg no serviço do Spark.

Apache Atlas

2.2.0

Governança de Dados

Maior robustez com o uso do JanusGraph DB para o armazenamento de metadados.

Hook para captura de metadados e linhagem de dados do HBase.

Envio de notificações quando novos relacionamentos entre entidades são criados.

Mais opções para a definição de entidades, como soft-reference, atributos obrigatórios, entre outras.

Apache Druid

25.0.0

Analytics

Análise de dados em tempo real, com o Druid é possível executar consultas SQL em grandes volumes de dados em poucos segundos, ou até milésimos de segundos.

Armazenamento colunar, particionamento baseado em tempo, indexação ágil e agregação/sumarização automática de dados no momento da ingestão.

Carregamento automático de dados através de diversas integrações, tais como, Hadoop e Kafka.

Apache Flink NOVIDADE

1.18.0

NoSQL

Suporte ao processamento batch e stream.

Gestão sofisticada de estados.

Semânticas de processamento baseadas em "tempo de evento"(event-time).

Apache Hadoop

3.2.4

Object Store e Resource Manager

Adição de sincronização para que o comando "yarn node list" não falhe intermitentemente.

Melhoria no desempenho do "system-metrics-publisher" do yarn enviando eventos para o servidor de timeline em lote.

Substituição do log4j 1.x por reload4j.

Apache HBase

2.4.11

NoSQL

Correção de problema de incompatibilidade com versões anteriores.

Introdução de "retry" no logroller.

Otimização da avaliação de performance com a criação de 3 novos comandos no PE: metaWrite, metaRandomRead, cleanMeta.

Possibilidade de adição de operações de incremento/anexação a RowMutations e execução dessas operações atomicamente em uma única linha.

Alteração do algoritmo de geração de chave de criptografia usado no shell Hbase.

Distinção entre maiusculas/minusculas no tratamento do parâmetro "doAS" pelo Thrift e REST.

Ativação da replicação de memstore para meta-réplica.

Adição de lógica de balanceamento de carga no hbase-client para distribuir a carga de leitura em regiões de meta-réplica.

Atualização da versão do JRuby para 9.2.

Adição de opções para desabilitar a criptografia do grupo de colunas e escolher o algoritmo de hash para chaves de criptografia agrupadas.

Permite a interrução de solicitações em andamento após decidir que uma região deve ser fechada.

Suporte ao Normalizer para recarga de hot config.

Introduz uma nova configuração para especificar um limite no throughput de ações executadas pelo normalizador.

Apache Hive

3.1.3

Analytics

Implementa UDF para interpretar date/timestamp usando a representação interna e o calendario hibrido Gregorian-Julian.

Novo recurso CachedStore - desenvolvimento da função Cache.

Apache Iceberg NOVIDADE

1.4.3

NoSQL

Possibilidade de adição, exclusão, renomeação, atualização e reordenamento de colunas em uma tabela sem necessidade de reescrevê-la.

Particionamento oculto - eliminam a necessidade de conhecer o layout estrutural de arquivos em tabelas antes de execução de consultas.

Controle de versão permitindo que alterações em dados possam ser facilmente revertidos.

Isolamento de snapshots garantindo a sua integridade e consistência.

Confirmações atômicas, garantindo a consistência dos dados em todas as consultas.

Operações em nível de arquivo, permitindo que um único registro seja atualizado sem que a pasta seja alterada, graças aos registros armazenados em seus metadados.

Apache Kafka

2.8.2

Streaming

Correção de erros como: manipulação incorreta de tópicos excluídos e recriados com mesmo nome, quebra de compatibilidade em Admin.listOffsets(), cálculo da métrica de porcentagem de falha, impasse durante o encerramento do corretor kafka devido a falha na conectividade, etc.

Atualização do Jetty para correções de CVE.

Apache Knox

1.6.1

Segurança

Serviço de descoberta dinâmica de endpoints (URLs) em topologias de serviços suportados. Essa funcionalidade é exclusiva para Clusters Hadoop administrados pelo Ambari.

Suporte para múltiplos Namenodes em um Cluster Federado.

Proxy para as UIs de novos componentes: YARN, Oozie, Spark 2, HDFS, MapReduce2 e Livy (apenas API).

Acesso por Login Único (SSO) para novos componentes: Zeppelin, YARN, MapReduce2, HDFS, Oozie.

Apache NiFi

1.19.1

Batch e Streaming

Corrigidas regressões com NiFi conversando com o Flow Registry.

Adicionado suporte para o tipo SQLServer sql_variant e outras melhorias e correções relacionadas ao CDC.

Outras correções simples de bugs e atualizações de dependências.

Apache Oozie

5.2.1

Workflow

Inicialização de jobs via YARN ApplicationMaster.

Reescrita completa do GraphGenerator. Com essa refatoração é possível exibir em dashboards fluxos de trabalho extensos e complexos.

Maior desempenho na escrita de metadados com a adição de índices em seu banco de dados.

Apache Phoenix

5.1.2

SQL e NoSQL

Implementação da "SYSTEM.LOG" - uma nova tabela de sistema que captura informações sobre as consultas em execução.

Suporte aos comandos de GRANT e REVOKE, com atualização automática de índices ACL.

Suporte ao Hadoop 3.0.X e HBase 2.0.X.

Driver Python para acesso ao Phoenix por meio do Phoenix Query Server.

Apache Ranger

2.1.0

Segurança

Maior flexibilidade para a gestão de privilégios com a adição de zonas de segurança.

Ranger Admin com suporte a alta disponibilidade.

Ranger Admin e REST API com suporte a doA.

Diversas melhorias nos plugins do Hive e Solr.

Apache Ranger-KMS NOVIDADE

2.1.0

Gerenciamento de chaves criptográficas

Possibilidade de criação, atualização ou exclusão de chaves usando a UI da Web ou APIs REST.

Capacidade de gerenciamento de Políticas de controle de acesso.

Auditoria completa de todas as ações relacionadas à gerenciamento de chaves criptográficas.

Apache Solr

8.11.1

NoSQL

Melhorias no suporte à documentos aninhados. As consultas agora podem aproveitar informações referentes as relações existentes entre os documentos.

Melhorias nos mecanimos de indexação e consulta, como a adição de novos query parses, highlighting, padrões de busca, entre outros recursos.

Correção de vulnerabilidades.

Apache Spark

3.1.3

Analytics, Ciência de Dados, Graph e Streaming

Execução adaptativa, ou seja, o Spark é capaz de melhorar automaticamente o plano de execução ainda durante o processamento da tarefa, conforme estatísticas coletadas constantemente.

Remoção dinâmica de dados desnecessários ainda durante a execução de uma tarefa baseado em informações adicionais coletadas constantemente. Esse recurso pode evitar a leitura de dados não úteis para o resultado final, antes mesmo de JOINs.

Nova interface para as Pandas UDFs que aproveita as type hints e promove o desenvolvimento de um código mais Pythonico e auto-descritivo.

Melhor aderência ao padrão ANSI SQL e adição de novos hints para as estratégias de JOIN.

Apache Superset

2.1.3

Visualização de Dados

Possibilidade de habilitar a flag GENERIC_CHART_AXES e o eixo categórico (em vez de apenas série temporal) para todas as visualizações de ECharts.

Ao ativar o novo HORIZONTAL_FILTER_BAR, há a possibilidade de uso de filtros do painel em um layout horizontal na parte superior da página em vez de uma barra lateral vertical. Isso é muito útil para a incorporação de painéis Superset.

O novo recurso DRILL_TO_DETAIL, quando habilitado, permite ao usuário clicar com o botão direito na maioria dos tipos de gráficos para visualizar uma tabela de dados subjacentes ou, em alguns gráficos, dados com um filtro específico aplicado aos resultados.

Apache Zeppelin

0.10.1

Notebook

Suporte para o Spark 3.3.0.

Suporte para o Hbase.

Instalação package-based.

Suporte para Java 11 e Hadoop3.

Suporte à segurança Kerberos otimizado.

Apache Zookeeper

3.5.10

Coordenação centralizada

Adição do comando admin para exibir informações do último snapshot.

Adição do comando admin para mostrar o estado sincronizado do "peer".

Atualização do plugin Maven Bundle para permitir compilações no JDK18.

Extensão do SnapshotFormatter para despejar dados no formato .json.

Suporte ao formato de chave/armazenamento BCFKS.