Saltar para o conteúdo principal

Conceitos

A Plataforma TDP é composta pelos principais softwares do Ecossistema de Big Data Open Source. Confira aqui informações conceituais de todos os componentes disponíveis.

Airflow - Orquestração de Pipelines

Ferramenta de orquestração de workflows, ideal para agendamento e execução de pipelines de dados complexos e baseados em dependências.

Ambari - Administração Centralizada

Plataforma de administração de Clusters de Big Data, possibilita o provisionamento, gerenciamento e monitoramento de clusters Hadoop e Big Data, com interface gráfica e APIs RESTful.

Atlas - Governança de Dados

Sistema de catalogação e classificação de ativos de dados, com suporte a linhagem, políticas de acesso e integração com outras ferramentas do ecossistema.

Druid - Análise de Dados em Tempo Real

Banco analítico orientado a colunas, otimizado para ingestão em tempo real, baixa latência em consultas e análise exploratória.

Flink - Processamento de Dados Distribuídos

Motor de processamento de streams e batch, com suporte nativo a estado, tolerância a falhas e operações em tempo real.

GX - Great Expectations - Garantia de Qualidade

Framework de validação de dados que automatiza testes de qualidade e documentação de pipelines, garantindo conformidade e consistência.

HBase - NoSQL Distribuído

Banco de dados NoSQL orientado a colunas, ideal para leitura/gravação em tempo real de grandes volumes de dados estruturados.

Hive - Exploração e Análise de Dados

Ferramenta de consulta de dados em Hadoop com sintaxe SQL, voltada para usuários familiarizados com Data Warehousing.

Iceberg - Formato de Tabela

Formato de tabela open source para análise de dados em larga escala, com suporte a transações, time travel e partições otimizadas.

Kafka - Streaming de Dados

Plataforma distribuída de streaming para publicação, assinatura, armazenamento e processamento de fluxos de dados em tempo real.

Kerberos - Autenticação e Propagação de Identidade

Protocolo de autenticação baseado em tickets, que fornece login único (SSO) seguro para ambientes distribuídos.

Knox - Gateway e Acesso Único

Gateway de perímetro para Hadoop que fornece autenticação, autorização e segurança de APIs com integração SSO.

Livy - Gerenciamento de Sessões Spark

Servidor REST para submissão remota de jobs Spark, gerenciamento de sessões e execução interativa via notebooks ou aplicações.

NiFi - Gestão e Automação de Fluxos de Dados

Ferramenta para automação de movimentação e transformação de dados, com interface visual e controle detalhado de fluxos.

Ozone - Armazenamento de dados massivo

Armazenamento de objetos escalável e resiliente, projetado para cargas de trabalho de Big Data com bilhões de arquivos.

Ranger - Autorização e Auditoria

Framework centralizado para gerenciamento de políticas de acesso e auditoria de segurança em ambientes Hadoop.

Ranger-KMS - Gerenciamento de chaves Criptográficas

Sistema de gerenciamento de chaves criptográficas para proteger dados sensíveis em repouso e em trânsito.

Spark - Computação Distribuída

Engine de processamento paralelo em memória para grandes volumes de dados, com suporte a batch, streaming, ML e SQL.

Sqoop - Ingestão de Dados

Ferramenta para importação e exportação de dados entre bancos relacionais e Hadoop em larga escala.

Solr - Pesquisa e Busca Textual

Plataforma de busca open source baseada em Lucene, com suporte a indexação, análise textual e APIs robustas.

Superset - BI e Visualização de Dados

Ferramenta de Business Intelligence com suporte a dashboards interativos, análise exploratória e múltiplas fontes de dados.

Trino - Mecanismo de Consulta distribuída

Motor de consultas SQL distribuídas que permite explorar dados diretamente nas fontes, sem movimentação.

Zeppelin - Notebook Colaborativo

Notebook interativo para análise de dados, suporte a múltiplos backends e visualização colaborativa.

Zookeeper - Coordenação Distribuída

Serviço centralizado para coordenação de aplicações distribuídas, usado para controle de configuração, sincronização e naming.