Destaques

Conheça os destaques do TDP 2.3.0:

Tabela A. Destaques da Plataforma
Plataforma Versão Destaques

Tecnisys Data Platform

2.3.0

Adição do Trino para virtualização de dados.

Adição do Apache Ozone para armazenamento escalável e flexível de objetos.

Adição do Great Expectations (Core) para análise da qualidade de dados.

Adição do serviço do HBase Rest API.

Inclusão de novos módulos para o Apache Airflow.

Adição do plugin do Debezium para CDC (Change Data Capture) do PostgreSQL.

Atualização dos componentes Airflow, Ambari, Atlas, Druid, Hadoop, HBase, Knox, Livy, NiFi, Phoenix, Ranger, Ranger KMS, Superset, Tez, Zeppelin e ZooKeeper.

Veja também os destaques dos componente atualizados:

Tabela B. Destaques dos componentes
Serviço Versão Categoria Destaques

Apache Airflow

2.9.3

Orquestração de Pipelines

Lista explícita de estados ignorados para ExternalTaskSensor.

O método cleanup() em BaseTrigger agora é definido como assíncrono.

Suporte oficial ao Python 3.12.

Remoção do suporte ao Python 3.7.

Suporte ao Microsoft SQL Server para o banco de metadados do Airflow foi removido.

Mudança do nome padrão da aplicação Celery para airflow.providers.celery.executors.celery_executor.

Consolidação do tratamento de tarefas presas na fila com a nova configuração task_queued_timeout.

O valor padrão da propriedade scheduler.max_tis_per_query foi alterado de 512 para 16.

Métodos da API Listener agora são considerados estáveis e podem ser usados em produção. Eventos de ciclo de vida: on_starting e before_stopping. Eventos de mudança de estado de DagRun: on_dag_run_running, on_dag_run_success e on_dag_run_failed; Eventos de mudança de estado de TaskInstance: on_task_instance_running, on_task_instance_success e on_task_instance_failed.

Mover macros do Hive para o provedor. As macros do Hive (hive.max_partition, hive.closest_ds_partition) estarão disponíveis somente quando o Hive Provider estiver instalado.

Tipo de valor da coluna xcom alterado para longblob no backend MySQL.

O medidor scheduler.tasks.running não existe mais.

URIs de Datasets agora são validadas na entrada.

Os comandos “db init” e “db upgrade” e a configuração “[database] load_default_connections” foram depreciados.

Adicionado índice na tabela taskinstance.

Prevenção de armazenamento de objetos string muito grandes nos Rendered Template Fields.

Atualização do app para configurar o método de hash de cache para conformidade FIPS v2.

Exibe apenas a configuração em execução na visualização de configurações.

Nova visão de gráficos.

O formulário de gatilho é ignorado na UI se nenhum parâmetro for definido em um DAG.

Em conexões SMTP SSL, o contexto agora usa o “default” em vez de “none”.

Permissões padrão de diretórios e arquivos de log do manipulador de tarefas foram alteradas para "gravável por proprietário + grupo".

A API xcomEntries desabilita por padrão o suporte à flag deserialize.

Código HTML bruto em descrições de DAGs e parâmetros foi desabilitado por padrão.

Adicionadas ações da API REST aos eventos do Log de Auditoria.

Retornos de SLA não adicionam mais arquivos à fila do gerenciador de processamento de DAGs.

Tratamento de OverflowError no cálculo do próximo intervalo exponencial.

Apache Atlas

2.3.0

Governança de Dados

API e interface para pesquisar relacionamentos por tipo e propriedades.

Atualização do JanusGraph, Elasticsearch, Kafka, Storm, TinkerPop, Gson, Spring, Framework e Log4.

Melhor desempenho em glossários grandes e criação em massa.

Integração com Hive: Correções e melhorias no hook e na importação.

Melhor desempenho na API e UI de linhagem.

Inclusão de versão de hooks e origem da mensagem.

Melhorias na UI para métricas, com persistência para histórico.

Lançamento do cliente Apache Atlas Python 0.0.12.

Melhor gerenciamento de falhas em atualizações de índice.

Suporte ao Cassandra com autenticação habilitada.

Correções e melhorias em pesquisa, linhagem e metadados de negócios.

Apache Druid

30.0.0

Análise de Dados em Tempo Real

Auto-descoberta de esquema com Detecção automática de tipos de dados e colunas.

Descoberta automática de esquema com reconhecimento de tipo.

UNNEST: Transformação de arrays para operações mais complexas e suporte em SQL e ingestão.

Junções Sort-Merge para maior escalabilidade ou hashsuffle para transmissões mais rápidas com o parâmetro sqlJoinAlgoritm.

Coordinator com Carregamento de segmento inteligente. Cálculo dinâmico de valores para várias configurações.

Nova visualização Explore no console da Web.

Suporte à Consulta de segmentos armazenados somente em armazenamento profundo.

Novos filtros de consulta (igualdade, null, intervalo).

Guardrail para resultados de subconsulta.

Apache Calcite para planejamento e otimização de SQL.

Consulta assíncrona e de armazenamento profundo.

Consultas MSQ para tarefas em tempo real.

Suporte MSQ para consultas UNION ALL.

Inserção de dados de streaming de vários tópicos do Kafka para uma fonte de dados usando um único supervisor.

SQL UNNEST na aquisição de lote baseada em SQL e consulta de armazenamento profundo.

Suporte experimental para instruções de exportação ao mecanismo de tarefa do MSQ.

SQL PIVOT e UNPIVOT (experimental) - Agregação e transformação de linhas em colunas na saída e vice-versa.

Suporte de intervalo em funções de janela (experimental).

Determinação automática do tipo de bloqueio de tarefa na anexação e substituição simultâneas.

Suporte a agregadores first e last para os tipos double, float e long.

Suporte a consultas de ingestão vazias por padrão.

Suporte para tipos de matriz em todos os assistentes de ingestão.

Suporte a Agrupamento em colunas complexas e matrizes aninhadas.

Métricas de Hardware e S.O: Adicionado um novo monitor de sistema OSHI para substituir SysMonitor.

Monitoramento de saúde dos serviços Overlord e Coordinator: Adicionado novo monitor e novas métricas.

Suporte para registro de eventos de auditoria e cobertura aprimorada de endpoints de API REST.

Nova propriedade para atualizar conclusão de tarefas controlando o número de threads usados pelo Overlord.

Limpeza ativa de segmentos pendentes obsoletos, melhorando o desempenho de append e replace simultâneos.

Integração com o Apache Iceberg.

Suporte MSQ para Google Cloud Storage.

Esboço DDS - suporte para consultas de quantil aproximadas com a biblioteca DDSketch.

Histograma baseado em Spectator (druid-spectator-histogram).

Delta Lake - para ingerir dados armazenados em uma tabela Delta Lake.

RabbitMQ para gerenciamento da criação e tempo de vida das tarefas de indexação do rabbit.

Extensão do emissor do Kafka melhorada.

Esquema de fonte de dados centralizado no Coordinator.

Inicialização HttpServerInventoryView mantida por Brokers e Coordinator resiliente a falhas de Historical e Peons.

Aprimoramento de consultas grupo By.

Aprimorando do filtro AND.

Junções INNER melhoradas.

Diálogo de pesquisa aprimorado.

Ingestão baseada em SQL - Planejamento de consultas aprimorado, tamanhos de segmentos melhorados.

Aprimoramento de Consultas Select que usam o mecanismo de tarefas do MSQ.

Melhorias substanciais para tornar o sistema mais compatível com ANSI SQL: Lógica de três valores, booleanos estritos (1-true, 0-false), tratamento de NULL.

Correção de inúmeros bugs como numSegmentsilled, relatórios de conclusão de tarefas e substituição simultânea.

Removido erro na inserção de tarefas duplicadas no repositório de metadados.

Correção de bugs para tornar o script start-druid mais robusto.

Correção de bug de cache de consultas groupBy.

Correção de falha de tarefas durante atualização na adição de uma nova ação de tarefa.

Outros diversos bugs corrigidos.

Apache Hadoop

3.3.6

Armazenamento e Processamento Distribuído

SBOM: Publicação de Software Bill of Materials (SBOM) usando CycloneDX Maven Plugin.

Novas APIs de Sistema de Arquivos: APIs específicas do HDFS (como recoverLease() e isFileClosed()) agora disponíveis no Hadoop Common.

Vectored IO: Implementação para todas as instâncias de FSDataInputStream, otimizando desempenho para file:// (IO nativo) e s3a:// (GETs paralelos).

Binaries para Arm64: Suporte para a arquitetura Arm64 com artefatos específicos.

RBF (Router-Based Federation): Suporte para armazenamento de tokens em bancos de dados como MySQL, substituindo o Zookeeper.

Prefetch de Stream ABFS: Correção para leitura eficiente em conectores ABFS.

Carregamento de Dependências: Redução de CVEs transitivos em bibliotecas externas.

Atualizações de Dependências: Grande atualização em dependências para aumentar segurança e compatibilidade.

Suporte a TLS: Melhorias na configuração de segurança para conexões TLS.

Integração Azure ABFS: Ajustes para tornar o sistema mais robusto em ambientes com pré-busca de streams.

Diversas correções no código para mitigar vulnerabilidades conhecidas.

Solução de problemas críticos no suporte ao armazenamento de tokens e na configuração do ABFS.

Ajustes para corrigir problemas com prefetch no conector ABFS e comportamentos inconsistentes em sistemas de arquivos.

Apache HBase

2.5.6

NoSQL Distribuído

Adicionado parâmetro hbase.normalizer.merge.merge_request_max_number_of_regions para limitar o número máximo de regiões processadas em uma solicitação de mesclagem.

Introduzido hbase.cleaner.directory.sorting para priorizar a limpeza de subdiretórios maiores no CleanerChore.

Suporte a profiling de relógio de parede com ProfilerServlet.

Inclusão de detalhes como EventType e ProcedureV2 nos logs via MDC.

Configuração para registrar leituras de blocos que ultrapassam o tempo limite definido.

Suporte aprimorado para hosts Apple Silicon com workaround para ferramentas.

Adição de parâmetro configurável para ajustar o tamanho inicial do pool de threads no ChoreService.

Melhorias no tratamento de caches de cliente e timeout em solicitações multi-region.

Alterações em HFilePrettyPrinter para maior precisão nas amostragens estatísticas e contagens detalhadas.

Redução de alocações no heap para leituras com Scan.setCacheBlocks(false) e LRUBlockCache.

Ocultação de informações sensíveis, como superusuários e senhas, na interface de configuração.

Atualização de bibliotecas como zstd-jni, jettison e SpotBugs para corrigir vulnerabilidades e melhorar compatibilidade.

Ajustes para remover dependências de tempo de build/teste nos poms publicados e alinhar perfis.

Corrigida a mensagem do RpcThrottlingException para exibir intervalos de espera em milissegundos.

Ajustes no script de build para manipular versões corretamente em diferentes branches.

Soluções para deadlocks em inicializações estáticas de RegionInfo.

Uso de Java 11 em jobs do Jenkins e ajustes em configurações de build.

Apache Knox

2.0.0

Gateway e Acesso Único

Suporte ao Apache Ozone na plataforma.

Inclusão do Presto e do Trino UI nas definições de serviços.

Suporte para acesso seguro ao Shell com KnoxSSO.

Suporte a metadados arbitrários em tokens.

Adição de suporte ao doAs para o serviço KnoxToken.

Implementação de limites de sessões concorrentes para UIs.

Implementação de um novo provedor de segurança DoS para proteger contra ataques de negação de serviço.

Centralização de detalhes de configuração de clusters para descoberta de serviços.

Configuração de TLS e suites de cifras na descoberta de serviços CM.

Possibilidade de evitar a redistribuição de topologias inalteradas.

Configurações para manipular maxFormContentSize e maxFormKeys no Jetty.

Melhoria nos logs, incluindo parâmetros como timeout de conexões HTTP e tamanho do buffer de replay.

Comandos estendidos para manipular strings como arquivos.

Adicionado método trim() ao KnoxShellTable para ajustar valores em colunas.

Tipos de JWT aceitos agora configuráveis.

Exclusão de códigos de acesso em respostas quando o estado gerenciado no servidor está desativado.

Inclusão de logs de autenticação e resultados de proxyuser para tokens.

Migração de Log4j 1.x para 2.x, mitigando vulnerabilidades críticas como Spring4Shell.

Correções e melhorias em documentação e scripts para aumentar a consistência.

Ajustes na interface para exibir campos relacionados à configuração apenas quando relevantes.

Apache Livy

0.8.0

Gerenciamento de Sessões Spark

Suporte ao Scala 2.12.

Suporte a ordenação e paginação via API GET/statement.

Atualização de dependências.

Apache NiFi

1.27.0

Gestão e Automação de Fluxos de Dados

SplitExcel: Divisão de dados em arquivos Excel.

GenerateRecord: Criação de registros com tipos e esquemas aleatórios para teste.

DecryptContentAge e DecryptContentCompatibility: Suporte à migração de dados criptografados.

Novos processadores para serviços AWS (Polly, Textract, Translate, Transcribe), Google Drive, Box e Salesforce.

ListenOTLP: Coleta de métricas OpenTelemetry.

PackageFlowFile: Geração de fluxos de dados com formato otimizado.

DatabaseTableSchemaRegistryService e StandardJsonSchemaRegistry: Gerenciamento de esquemas em bancos de dados e JSON.

Record Reader para Protobuf.

Suporte a planilhas protegidas por senha no ExcelReader.

Novos métodos para suporte a host/port dinâmicos em processadores SNMP.

Estratégias de processamento aprimoradas, como No Tracking no ListS3.

Transição do armazenamento de histórico de configurações de H2 para JetBrains Xodus.

Melhorias na autenticação Kerberos.

Comando CLI para atualizar todas as instâncias de fluxos versionados.

Estratégia de estado do componente para ConsumeAzureEventHub Checkpointing.

Correção de vulnerabilidades, incluindo CVE-2023-22832.

Atualização de dependências principais, como Spring Framework, Logback, e JSON Path.

Melhorias na integração com OpenID Connect, incluindo suporte para tokens de atualização.

Integração com Amazon Glue Schema Registry e Asana.

Suporte a upserts no processador Put Database Record.

Ajustes no comportamento de ListHDFS para liberar recursos corretamente.

Correção no ListenGRPC para suporte a TLS no Java 17.

Resolução de problemas com integração do NiFi Registry via Git Provider com SSH.

Melhorias no comportamento de migração e compatibilidade entre fluxos versionados e NiFi Registry.

Correção na automação de migração de configurações de fluxo de versões anteriores.

Ajustes na compressão de conteúdo para melhorar o desempenho sem impactos de CPU.

Componentes: Spark Livy, Solr, Apache Ranger, Hive 3 e Apache Knox SSO.

ConsumeEWS, ConvertAvroToJSON, Base64EncodeContent.

Remoção planejada de serviços de notificação no Bootstrap e do servidor MiNiFi C2.

Apache Ozone

1.4.0

Armazenamento de Objetos Escalável

Suporte aprimorado para autenticação e autorização via Kerberos.

Gerenciamento mais robusto de ambientes com múltiplos Storage Container Managers (SCM) e Object Storage daemons (OM).

Melhorias no desempenho de leitura e gravação em grandes volumes de dados.

Redução da latência em operações de metadados, especialmente para cargas de trabalho intensivas.

Suporte para integração com soluções de terceiros, como Apache Ranger, para controle de políticas de segurança.

Melhor integração com o ecossistema Hadoop, permitindo uma transição mais suave para o uso do Ozone.

Implementação de novos algoritmos de compactação para otimizar o uso de armazenamento.

Suporte aprimorado para replicação de dados em larga escala, garantindo maior confiabilidade.

Apache Phoenix

5.2.0

Interface SQL para HBase

Suporte ao operador MERGE para atualizações condicionais em tabelas.

Suporte ao protocolo de autenticação Kerberos SPNEGO no cliente JDBC.

Melhorias no desempenho do índice secundário e suporte a índices locais em regiões pequenas.

Ajustes em consultas SQL complexas para evitar loops infinitos.

Resolução de problemas na compactação de índices regionais.

Atualização de bibliotecas como Hadoop, HBase e Avatica para versões mais recentes, garantindo maior compatibilidade.

Melhorias no suporte a autenticação e permissões para consultas em larga escala.

Revisão e melhorias na cobertura de funcionalidades SQL e índices.

Apache Ranger

2.4.0

Gestão de Políticas de Segurança

Suporte a controle de acesso refinado em estruturas aninhadas.

Adição de macros em expressões para filtragem de linhas e condições.

Integração do Ranger KMS com Google Cloud HSM e TencentKMS.

Implementação de filtros para reduzir o volume de logs de auditoria.

Endpoint de diagnóstico e logs detalhados adicionados ao Ranger admin.

Suporte para APIs e plugins de serviços como Hive, Trino e Solr.

Atualizações para trabalhar com versões recentes de bibliotecas como Spring e Tomcat.

Otimizações no uso de memória em plugins e manipulação de tags.

Redução de duplicação de strings para melhorar eficiência.

Melhorias no tempo de resposta em APIs e sincronização de usuários.

Melhoria na experiência do usuário no Ranger Admin UI, incluindo tooltips e mensagens de erro mais claras.

Adição de pop-ups de aviso e feedback em páginas de políticas.

Melhorias no manuseio de credenciais e autenticação de usuários do LDAP/AD com caracteres especiais.

Suporte para autenticação anônima em downloads de políticas e permissões refinadas em APIs públicas.

Logs mais detalhados e configuráveis, como a inclusão de IDs de requisição em logs de auditoria.

Suporte para auditorias baseadas em filtros configuráveis para serviços como KMS e Hive.

Novas APIs para gerenciamento de políticas, papéis e zonas de segurança.

Melhorias na documentação das APIs.

Adição de endpoints de diagnóstico e melhorias no cache para facilitar a análise de problemas.

Correção de problemas que expunham informações confidenciais, como senhas em texto simples.

Ajustes no manuseio de exceções e credenciais no auditamento e sincronização de usuários.

Correção de lentidão ao excluir papéis em sistemas com muitos usuários.

Ajuste em APIs que apresentavam inconsistências em cenários com grande volume de dados.

Ajustes no Ranger Admin UI para resolver problemas em ferramentas de edição e páginas de relatórios.

Correção de links quebrados e APIs mal documentadas.

Correções em integrações com serviços como Hive, Trino e Elasticsearch.

Ajustes em problemas relacionados ao uso de bibliotecas desatualizadas.

Apache Superset

4.0.2

Visualização de Dados

Introdução do gráfico de cascata (Waterfall chart) para representar variações cumulativas de valores.

Aprimoramentos na experiência do usuário e correções de bugs para maior estabilidade.

Redesign do modal de Alertas e Relatórios para uma configuração mais intuitiva.

Implementação do sistema de tags para facilitar a categorização de gráficos, dashboards e consultas salvas.

Melhorias na funcionalidade de arrastar e soltar ao editar dashboards, proporcionando uma edição mais precisa.

Alterações significativas na arquitetura visando melhor escalabilidade e desempenho.

Atualizações de dependências e remoção de recursos obsoletos para aumentar a segurança e a manutenção do sistema.

Otimizações no código para aprimorar a performance geral da aplicação.

Apache Tez

0.10.2

Framework para Processamento de Dados

Endpoint /prof adicionado para monitoramento similar ao HiveServer2.

Exposição de consumo de memória em tempo real via DagClient.

Compatibilidade com versões mais recentes do Hadoop (3.2.x e 3.3.x).

Suporte para geração automática de classes Protobuf usando protoc-jar-maven-plugin.

Métodos utilitários adicionais para manipulação de IDs no TezID.

Melhorias no gerenciamento de credenciais e autenticação para CI.

Otimizações no uso de memória, como no ShuffleHandler e no manuseio de objetos Netty.

Redução de sobrecarga em DAGAppMaster e aumento da eficiência em sincronizações e verificações de política.

Atualizações no WebUI para melhorar a exibição de métricas, diagnósticos e mensagens de erro.

Inclusão de ferramentas de depuração como novos endpoints diagnósticos em TezAM’s WebUIService.

Substituição de log4j 1.x por reload4j.

Upgrades de bibliotecas vulneráveis como Guava, cryptiles, e lodash.merge.

Ajustes em mensagens de log para maior clareza e relatórios detalhados em auditorias.

Correção de propriedades que não funcionavam corretamente, como tez.task.launch.cmd-opts.

Ajustes em dependências críticas como ShuffleHandler para SSL e problemas de compatibilidade com Hadoop 3.3.0.

Inclusão de comandos ausentes como sudo e wget nas imagens Docker.

Soluções para falhas em testes como TestSecureShuffle e melhorias no tempo de execução de testes como TestFaultTolerance.

Apache Zeppelin

0.11.2

Ambiente de Colaboração

Atualização de bibliotecas Apache Commons para versões mais recentes.

Suporte para inicialização do servidor com credenciais JSON vazias.

Atualização da variável de ambiente JAVA_HOME para usar o openjdk11.

Correção no intérprete Shell para evitar execução simultânea de código.

Resolução de problemas no interpretador do Spark com a versão 0.11.1.

Apache ZooKeeper

3.7.2

Coordenação de Serviços Distribuídos

Suporte para limitar o número máximo de conexões/clientes a um servidor ZooKeeper.

Atualização da dependência Jetty para uma versão estável mais recente.

Correções diversas para melhorar a estabilidade e segurança do sistema.

Adicionado suporte para autenticação SASL no cliente C.

Ferramentas de benchmark para o ZooKeeper.

Implementação de limites de cota.