Conceitos

A Plataforma TDP é composta pelos principais softwares de uma Stack de Dados Moderna. Confira aqui informações conceituais de todos os componentes disponíveis.

Airflow - Orquestração de Pipelines

Ferramenta de orquestração de workflows, ideal para agendamento e execução de pipelines de dados complexos e baseados em dependências.

Ambari - Administração Centralizada

Plataforma de administração de Clusters de Big Data, possibilita o provisionamento, gerenciamento e monitoramento de clusters Hadoop e Big Data, com interface gráfica e APIs RESTful.

Atlas - Governança de Dados

Sistema de catalogação e classificação de ativos de dados, com suporte a linhagem, políticas de acesso e integração com outras ferramentas do ecossistema.

Delta Lake - Formato de Tabela Otimizado

Camada transacional que opera sobre um data lake, adicionando transações ACID, versionamento, gerenciamento de esquema e integração com Spark.

Druid - Análise de Dados em Tempo Real

Banco analítico orientado a colunas, otimizado para ingestão em tempo real, baixa latência em consultas e análise exploratória.

Flink - Processamento de Dados Distribuídos

Motor de processamento de streams e batch, com suporte nativo a estado, tolerância a falhas e operações em tempo real.

Great Expectations (GX) - Qualidade dos Dados

Framework de validação de dados que automatiza testes de qualidade e documentação de pipelines, garantindo conformidade e consistência.

Hadoop

Framework para processamento distribuído de grandes volumes de dados em clusters, com modelo baseado em MapReduce e armazenamento via HDFS.

HDFS - Sistema de Armazenamento Distribuído

Sistema de arquivos distribuído nativo do Hadoop, escalável e tolerante a falhas.

MapReduce - Framework para Processamento de Dados Distribuído

Modelo de programação para processar grandes volumes de dados em paralelo usando fases de mapeamento e redução.

YARN - Gerenciador de Recursos

Gerenciador de recursos que permite múltiplos motores de processamento rodarem sobre um mesmo cluster Hadoop.

HBase - NoSQL Distribuído

Banco de dados NoSQL orientado a colunas, ideal para leitura/gravação em tempo real de grandes volumes de dados estruturados.

Hive - Exploração e Análise de Dados

Ferramenta de consulta de dados em Hadoop com sintaxe SQL, voltada para usuários familiarizados com Data Warehousing.

Iceberg - Formato de Tabela Otimizado

Formato de tabela open source para análise de dados em larga escala, com suporte a transações, time travel e partições otimizadas.

Kafka - Streaming de Dados

Plataforma distribuída de streaming para publicação, assinatura, armazenamento e processamento de fluxos de dados em tempo real.

Kerberos - Autenticação e Propagação de Identidade

Protocolo de autenticação baseado em tickets, que fornece login único (SSO) seguro para ambientes distribuídos.

Knox - Gateway e Acesso Único

Gateway de perímetro para Hadoop que fornece autenticação, autorização e segurança de APIs com integração SSO.

Livy - Gerenciamento de Sessões Spark

Servidor REST para submissão remota de jobs Spark, gerenciamento de sessões e execução interativa via notebooks ou aplicações.

NiFi - Gestão e Automação de Fluxos de Dados

Ferramenta para automação de movimentação e transformação de dados, com interface visual e controle detalhado de fluxos.

Ozone - Armazenamento Massivo de Dados

Armazenamento de objetos escalável e resiliente, projetado para cargas de trabalho de Big Data com bilhões de arquivos.

Ranger - Autorização e Auditoria

Framework centralizado para gerenciamento de políticas de acesso e auditoria de segurança em ambientes Hadoop.

Ranger KMS - Gerenciamento de Chaves Criptográficas

Sistema de gerenciamento de chaves criptográficas para proteger dados sensíveis em repouso e em trânsito.

Spark - Computação Distribuída

Engine de processamento paralelo em memória para grandes volumes de dados, com suporte a batch, streaming, ML e SQL.

Sqoop - Ingestão de Dados

Ferramenta para importação e exportação de dados entre bancos relacionais e Hadoop em larga escala.

Solr - Pesquisa e Busca Textual

Plataforma de busca open source baseada em Lucene, com suporte a indexação, análise textual e APIs robustas.

Superset - BI e Visualização de Dados

Ferramenta de Business Intelligence com suporte a dashboards interativos, análise exploratória e múltiplas fontes de dados.

Trino - Mecanismo de Consulta Distribuída

Motor de consultas SQL distribuídas que permite explorar dados diretamente nas fontes, sem movimentação.

Zeppelin - Notebook Colaborativo

Notebook interativo para análise de dados, suporte a múltiplos backends e visualização colaborativa.

Zookeeper - Coordenação Distribuída

Serviço centralizado para coordenação de aplicações distribuídas, usado para controle de configuração, sincronização e naming.