Conceitos
A Plataforma TDP é composta pelos principais softwares do Ecossistema de Big Data Open Source. Confira aqui informações conceituais de todos os componentes disponíveis.
Airflow - Orquestração de Pipelines
Ferramenta de orquestração de workflows, ideal para agendamento e execução de pipelines de dados complexos e baseados em dependências.
Ambari - Administração Centralizada
Plataforma de administração de Clusters de Big Data, possibilita o provisionamento, gerenciamento e monitoramento de clusters Hadoop e Big Data, com interface gráfica e APIs RESTful.
Atlas - Governança de Dados
Sistema de catalogação e classificação de ativos de dados, com suporte a linhagem, políticas de acesso e integração com outras ferramentas do ecossistema.
Druid - Análise de Dados em Tempo Real
Banco analítico orientado a colunas, otimizado para ingestão em tempo real, baixa latência em consultas e análise exploratória.
Flink - Processamento de Dados Distribuídos
Motor de processamento de streams e batch, com suporte nativo a estado, tolerância a falhas e operações em tempo real.
GX - Great Expectations - Garantia de Qualidade
Framework de validação de dados que automatiza testes de qualidade e documentação de pipelines, garantindo conformidade e consistência.
Hadoop
Framework para processamento distribuído de grandes volumes de dados em clusters, com modelo baseado em MapReduce e armazenamento via HDFS.
HDFS - Sistema de Armazenamento Distribuído
Sistema de arquivos distribuído nativo do Hadoop, escalável e tolerante a falhas.
MapReduce - Framework para Processamento de Dados Distribuído
Modelo de programação para processar grandes volumes de dados em paralelo usando fases de mapeamento e redução.
YARN - Gerenciador de Recursos
Gerenciador de recursos que permite múltiplos motores de processamento rodarem sobre um mesmo cluster Hadoop.
HBase - NoSQL Distribuído
Banco de dados NoSQL orientado a colunas, ideal para leitura/gravação em tempo real de grandes volumes de dados estruturados.
Hive - Exploração e Análise de Dados
Ferramenta de consulta de dados em Hadoop com sintaxe SQL, voltada para usuários familiarizados com Data Warehousing.
Iceberg - Formato de Tabela
Formato de tabela open source para análise de dados em larga escala, com suporte a transações, time travel e partições otimizadas.
Kafka - Streaming de Dados
Plataforma distribuída de streaming para publicação, assinatura, armazenamento e processamento de fluxos de dados em tempo real.
Kerberos - Autenticação e Propagação de Identidade
Protocolo de autenticação baseado em tickets, que fornece login único (SSO) seguro para ambientes distribuídos.
Knox - Gateway e Acesso Único
Gateway de perímetro para Hadoop que fornece autenticação, autorização e segurança de APIs com integração SSO.
Livy - Gerenciamento de Sessões Spark
Servidor REST para submissão remota de jobs Spark, gerenciamento de sessões e execução interativa via notebooks ou aplicações.
NiFi - Gestão e Automação de Fluxos de Dados
Ferramenta para automação de movimentação e transformação de dados, com interface visual e controle detalhado de fluxos.
Ozone - Armazenamento de dados massivo
Armazenamento de objetos escalável e resiliente, projetado para cargas de trabalho de Big Data com bilhões de arquivos.
Ranger - Autorização e Auditoria
Framework centralizado para gerenciamento de políticas de acesso e auditoria de segurança em ambientes Hadoop.
Ranger-KMS - Gerenciamento de chaves Criptográficas
Sistema de gerenciamento de chaves criptográficas para proteger dados sensíveis em repouso e em trânsito.
Spark - Computação Distribuída
Engine de processamento paralelo em memória para grandes volumes de dados, com suporte a batch, streaming, ML e SQL.
Sqoop - Ingestão de Dados
Ferramenta para importação e exportação de dados entre bancos relacionais e Hadoop em larga escala.
Solr - Pesquisa e Busca Textual
Plataforma de busca open source baseada em Lucene, com suporte a indexação, análise textual e APIs robustas.
Superset - BI e Visualização de Dados
Ferramenta de Business Intelligence com suporte a dashboards interativos, análise exploratória e múltiplas fontes de dados.
Trino - Mecanismo de Consulta distribuída
Motor de consultas SQL distribuídas que permite explorar dados diretamente nas fontes, sem movimentação.
Zeppelin - Notebook Colaborativo
Notebook interativo para análise de dados, suporte a múltiplos backends e visualização colaborativa.
Zookeeper - Coordenação Distribuída
Serviço centralizado para coordenação de aplicações distribuídas, usado para controle de configuração, sincronização e naming.