Destaques
| Plataforma | Versão | Destaques |
|---|---|---|
| Tecnisys Data Platform | TDP 3.0.0 | Adição do JupyterLab: Ambiente interativo para análise de dados, notebooks e visualizações; Suporte a múltiplas linguagens e extensões; Interface moderna baseada em separadores, integrando edição de código, execução e gráficos.. |
| Adição do OpenMetadata: Plataforma de governação e catálogo de dados; Permite linhagem (lineage), descoberta de dados e definição de qualidade; Integração com diversos serviços do ecossistema (bases de dados, lakes, pipelines). |
Tabela A. Destaques da Plataforma Veja também os destaques dos componentes atualizados:
| Serviço | Versão | Categoria | Recurso/Destaque |
|---|---|---|---|
| Airflow | 2.10.5 | Orquestração | Execução de teardown tasks: quando um DAG é marcado manualmente como failed ou success, as tarefas de teardown são executadas se as setup já rodaram. Antes eram ignoradas, podendo deixar recursos sem limpeza. |
| Limite para priority_weight: valores agora são limitados ao intervalo de inteiros 32-bit, evitando erros de estouro em bancos que não suportam 64-bit. | |||
| BashOperator aprimorado: scripts .sh/.bash com Jinja são renderizados em arquivos temporários antes da execução, em vez de inline. | |||
| Telemetria Scarf: coleta de métricas de uso (opt-out possível). | |||
| Datasets: não disparam DAGs inativos/pausados. | |||
| OpenTelemetry Traces: suporte a tracing completo (scheduler, executor, DAG runs). | |||
| Múltiplos executores simultâneos (hybrid executors, experimental). | |||
| Delta Lake | 3.3.0 | Formato de tabela otimizado | Clustering Avançado: Introdução do Liquid Clustering, com incremental recluster, OPTIMIZE FULL e suporte a habilitar em tabelas já existentes; Integração com filtros de partition-like para reduzir leituras em consultas seletivas. |
| Gerenciamento de Dados e Performance: Deletion Vectors para DELETE, UPDATE e MERGE → enormes ganhos de performance evitando reescrita de arquivos inteiros; Auto Compaction e Optimized Write → redução de small files; VACUUM LITE e Vacuum Inventory → limpeza mais rápida e eficiente; Melhoria no tempo de inicialização de snapshots com checksums em commits. | |||
| Evolução de Schema e Tabelas: Type Widening: alteração de tipos de coluna sem reescrever dados, incluindo suporte em campos aninhados; Default Values e Identity Columns: geração automática de valores para colunas (chaves únicas ou valores padrão); Row Tracking: rastreamento de linhas entre versões da tabela, habilitável inclusive em tabelas existentes. | |||
| Interoperabilidade e UniForm: Delta UniForm: leitura/escrita compatível com Iceberg e Hudi; Possibilidade de habilitar UniForm em tabelas já existentes sem reescrita de dados. | |||
| Protocolos e Confiabilidade: In-Commit Timestamps: consistência em time travel;Protocol upgrade/downgrade mais flexível;Validação de estado da tabela via commit checksums. | |||
| Sharing e Integração:Delta Sharing integrado ao core, com suporte a streaming e Change Data Feed; Melhor segurança no cliente (sem expor URLs em erros). | |||
| Druid | 32.0.0 | Ingestão e Armazenamento: Compaction avançada: novo scheduler mais flexível, auto-compaction com MSQ engine e suporte a append/replace concorrente; Armazenamento otimizado: compressão de colunas, segment sorting flexível, correções em métricas complexas; Fim do Hadoop ingestion: depreciação do modelo Hadoop em favor de SQL ingestion. | |
| Consultas e Engine: Window functions: agora disponíveis nativamente:Dart Engine (experimental): execução distribuída para consultas complexas (joins grandes, subqueries, CTEs); Projections (experimental): pré-agregados embutidos nos segmentos para acelerar queries; Melhorias em Delta Lake e Iceberg connectors (suporte a tipos complexos, snapshots); Realtime queries mais consistentes em colunas string multi-valor → corrigida diferença de comportamento entre dados em memória e persistidos; Join hints no MSQ: possibilidade de guiar o tipo de join em nível de query. | |||
| APIs e Operações: Novos Overlord APIs para marcar segmentos como usados/não usados (antes era no Coordinator); Validação ANSI-SQL: remoção das configs antigas que permitiam comportamentos não compatíveis; Protocolos mais consistentes para marcar segmentos, reduzir inconsistências e garantir previsibilidade. | |||
| Plataforma e Infra: Java: suporte a Java 8 removido, Java 11 deprecado, recomendação de Java 17. Segurança: correções de vulnerabilidades recentes (CVE). | |||
| Web Console: Explore View (experimental): interface interativa para exploração de dados: Segment timeline interativa: não mais limitada à granularidade diária; Query stages UI: visualização gráfica das fases de execução com métricas de CPU; Suporte a Dart queries direto na UI. | |||
| Great Expectations | 1.3.5 | Qualidade de Dados | Nova funcionalidade: CheckpointFactory.add_or_update e suporte a strict_min/strict_max em ExpectTableRowCountToBeBetween. |
| Manutenção e ajustes técnicos: Suporte a row_condition com datetimes em Pandas e Spark; Agendamento de limpeza no BigQuery (“cleanup every 3 hours”); Adicionado parâmetro strict no tipo Window; Geração de erro claro se o cloud mode for solicitado sem variáveis de ambiente; e garantia de run_id em ValidationDefinition.run. | |||
| HBase | 2.5.7 | Base de dados NoSQL | Comutador para evitar reabertura de regiões ao editar tabelas — melhora a estabilidade operacional ao prevenir “tempestade” de RIT. |
| Comando isolate_regions no RegionMover — permite isolar e realocar regiões de forma precisa e controlada. | |||
| Hive | 4.0.0 | Exploração e Análise de Dados | Representa um salto significativo, com cerca de 5 mil commits desde a versão 3.1.3. |
| Integração com o Apache Iceberg: suporte aprimorado a tabelas Iceberg, incluindo compaction via OPTIMIZE TABLE. | |||
| Melhorias no Metastore e em transações: Transações e mecanismos de locking aprimorados para reforçar a conformidade ACID; Compaction para tabelas ACID e Iceberg, melhorando desempenho e armazenamento. | |||
| Suporte a Docker: imagens oficiais do Hive no Docker Hub para facilitar o deploy. | |||
| Otimizações de compilação e execução: Anti-join, branch pruning, estatísticas de histograma de colunas, HPL/SQL, suporte a scheduled queries e regras refinadas do CBO (otimizador de custo); Vistas materializadas para acelerar consultas; Desempenho elevado com Tez e LLAP. | |||
| Replicação e compatibilidade: Recursos melhorados de replicação para tabelas externas e ACID; Suporte ao Apache Ozone como sistema de armazenamento escalável. | |||
| Recursos avançados extraídos do changelog (lista parcial): GeoSpatial nativo no Hive, suporte a Iceberg compaction, resumo de metadados no HMS, threads de descoberta via Zookeeper, autenticação JWT sobre HTTP para o Metastore, API do HMS otimizada e suporte a SAML 2 no HiveServer2. | |||
| Iceberg | 1.8.0 | Formatos de Tabela | Fim do suporte ao Spark 3.3 e ao Hive Runtime. |
| Deleção vetorial (Deletion Vectors): nova especificação, APIs e suporte na leitura/escrita. | |||
| Tipo Variant e UnknownType: novos tipos suportados na especificação e na API. | |||
| Melhorias operacionais: fast append, remoção de especificações não usadas, procedures úteis no Spark. | |||
| Integração com AWS/Azure aprimorada e compatibilidade estendida com Spark, Flink, Hive. | |||
| Atualização importante de dependências para mais desempenho e segurança. | |||
| Kafka | 3.4.1 | Streaming de Dados | Migração do ZooKeeper para KRaft (versão inicial e não recomendada para produção) — permite mover metadados do cluster para o novo modo KRaft sem downtime |
| Novo campo generation no protocolo de consumo — ajuda a gerir reivindicações de partições e a detetar consumidores mais recentes | |||
| Possibilidade de desativar o JMX Reporter — opção para desativar o JMXReporter em ambientes que não o utilizam. | |||
| Novas opções de configuração para o console Producer/Consumer — parâmetros --reader-config e --formatter-config para melhor personalização. | |||
| Expiração de Producer IDs otimizada — separa o controlo de expiração de IDs de produtores e IDs de transação (novo timeout configurável) | |||
| Novas opções de configuração para o console Producer/Consumer — parâmetros --reader-config e --formatter-config para melhor personalização. | |||
| Snapshots de metadata baseados em tempo — geração automática de snapshots com base no tempo (ex.: a cada hora) | |||
| Consumidores conscientes da rack (rack-aware) — melhora a distribuição e permite consumir de réplicas geograficamente próximas (AZ local). | |||
| Kafka Streams (KIP-770 & KIP-837): Atualização de configs e métricas de cache interno; Capacidade de transmitir (broadcast) registos de saída para todas as partições ou descartá-los. | |||
| Kafka Connect / MirrorMaker2 (KIP-787): Permite executar o MirrorMaker2 com implementações personalizadas de gestor de recursos — facilita a integração em infraestruturas personalizadas. | |||
| Remoção do nó de quota no ZooKeeper quando as configurações estão vazias — limpa configurações antigas. | |||
| Corrigida fuga de recurso em interceptores (Interceptor resource leak). | |||
| O MirrorMaker2 agora lê todos os sincronizadores de offset ao iniciar — aumenta a consistência na inicialização | |||
| O MirrorMaker2 publica sincronizações de offset também durante o commit de tarefas — melhora a rastreabilidade do offset. | |||
| O MM2 agora traduz offsets de grupos de consumo através do fluxo de replicação — sincronização mais precisa. | |||
| NiFi | 1.28.1 | Gestão e Automação de Fluxos de Dados | Segurança e estabilidade: Corrigido o registo de valores sensíveis de parâmetros no log de sincronização de fluxo. Mesmo com debug ativado, esses valores já não são expostos — disponível na 1.28.1; Proteção contra vulnerabilidade de cross-site scripting (XSS): descrições de parâmetros passaram a ser corretamente neutralizadas na 1.28.0 |
| fim do suporte para o NiFi 1.x (suporte encerrado em 8 de dezembro de 2024). A equipa Apache recomenda fortemente a migração para a série 2.x. | |||
| Ozone | 1.4.1 | Armazenamento de Objetos Escalável | Evita race condition no datanode ao criar VERSION — aumenta a fiabilidade operacional. |
| Logs do SCM refinados — reduzem o ruído e evitam falsos erros ao lidar com o sequence ID em contentores fechados. | |||
| Reforço de segurança no S3 Gateway — endpoint de manipulação de segredos agora restrito apenas a administradores. | |||
| Spark | 3.5.3 | Plataforma de Computação Distribuída | Terceira atualização de manutenção da série 3.5, também com foco em segurança e correções de bugs. Recomendado para adoção em ambientes que já utilizam 3.5 |
| Superset | 4.1.2 | Visualização de Dados | Novos gráficos e visualizações: Big Number e comparações temporais, Heatmap, Histograma e Sankey. |
| Catálogo dinâmico em bases de dados ligadas. | |||
| UI de upload mais intuitiva com validações. | |||
| Integração com o Slack mais visual. | |||
| Filtros de tempo e macro Jinja para dinamismo em dashboards. | |||
| Melhorias de UX nos dashboards, no SQL Lab e nas permissões. | |||
| Security fixes importantes em 4.1.2: evita takeover de recursos e bypass de controlo de acesso. | |||
| Apache Tez | 0.10.4 | ~28 correções e melhorias no total, focadas em observabilidade, estabilidade e segurança. | |
| Apache ZooKeeper | 3.8.4 | Coordenação de Serviços Distribuídos | Suporte para limitar o número máximo de conexões/clientes a um servidor ZooKeeper. |
| Melhor experiência no zkCli: nova opção para esperar a ligação antes de executar comandos (evita falhas imediatas em ambientes instáveis). | |||
| Mensagens de log aprimoradas: Inclusão consistente de unidade de tempo nos logs de arranque do servidor, Endereços de rede agora aparecem de forma mais clara quando as portas de listeners são ligadas, Mensagens de erro mais precisas (menos enganosas). | |||
| Limpeza e otimização de código: remoção de trechos inúteis em componentes internos (melhora a manutenção e reduz o ruído). | |||
| Documentação e site: várias correções de formatação, erros de digitação e clareza em manuais e páginas de administração. |
Tabela B. Destaques dos componentes*/}