Conceitos

A Plataforma TDP é composta pelos principais softwares de uma Stack de Dados Moderna. Consulte aqui informações conceptuais de todos os componentes disponíveis.

Airflow - Orquestração de Pipelines

O Airflow oferece funcionalidades importantes que o tornam especialmente adequado para a implementação de pipelines de dados eficientes e orientadas por lotes.

Ambari - Administração Centralizada

O Apache Ambari permite a automatização do deployment, gestão de serviços e nós (hosts), monitorização sistémica do ambiente, versionamento de configurações e muito mais.

Atlas - Governação de Dados

O Apache Atlas permite às organizações construir um catálogo dos seus ativos, classificá-los, geri-los e fornecer capacidades de colaboração para a sua utilização por cientistas de dados e equipas de governação.

Delta Lake - Formato de Tabela Otimizado

Camada transacional que funciona sobre um data lake, adicionando transações ACID, controlo de versões, gestão de esquemas e integração com o Spark.

Druid - Análise de Dados em Tempo Real

Concebido para análises rápidas e fragmentadas (consultas OLAP) em grandes volumes de dados, o Druid potencia casos de uso em que a ingestão em tempo real, o desempenho rápido das consultas e a alta produtividade são essenciais.

Flink - Processamento de Dados Distribuídos

O Apache Flink é uma framework e motor de processamento distribuído para computação com estado sobre fluxos de dados limitados e ilimitados.

Great Expectations (GX) - Qualidade dos Dados de Dados

O Great Expectations (GX) é uma ferramenta open-source concebida para tornar o processo de validação e garantia de qualidade de dados mais acessível, automatizado e eficiente.

Hadoop

O Apache Hadoop define uma arquitetura para processamento distribuído e paralelo de grandes volumes de dados, permitindo a sua execução em múltiplos servidores com modelos de programação simples.

HDFS - Sistema de Ficheiros Distribuído

O HDFS (Hadoop Distributed File System) é o sistema de armazenamento principal utilizado pelo Hadoop.

MapReduce - Framework de Processamento Distribuído

O Apache MapReduce é uma framework desenvolvida para escrever aplicações que processam grandes volumes de dados em clusters de hardware convencional.

YARN - Gestor de Recursos

O Apache YARN é responsável pela gestão de recursos nos clusters, assumindo ainda o agendamento e alocação de recursos no sistema Hadoop.

HBase - NoSQL Distribuído

O HBase permite acesso aleatório eficiente e leitura/gravação em tempo real sobre grandes volumes de dados distribuídos.

Hive - Exploração e Análise de Dados

O Hive facilita o trabalho de utilizadores de data warehouses com conhecimentos em SQL, mas que tenham dificuldade em utilizar Java ou outras linguagens.

Iceberg - Formato de Tabela Otimizado

O Apache Iceberg permite acesso a dados históricos em tempo real de forma coesa, garantindo integridade e consistência dos dados.

Kafka - _Streaming_ de Dados

O Kafka é a plataforma de streaming de eventos mais utilizada para recolher, processar, armazenar e integrar dados em escala.

Kerberos - Autenticação e Propagação de Identidade

O Kerberos é um protocolo open-source de autenticação em rede que fornece Single Sign-On (SSO) com autenticação mútua confiável. É utilizado em clusters Hadoop para acesso seguro.

Knox - Gateway e Acesso Unificado

O Apache Knox atua como um proxy de aplicações na camada de perímetro, recebendo pedidos de clientes e encaminhando-os para o serviço pretendido.

Livy - Gestão de Sessões Spark

O Livy fornece uma forma simples de interagir com um cluster Apache Spark através de API REST, permitindo submeter e gerenciar trabalhos Spark remotamente.

NiFi - Gestão e Automação de Fluxos de Dados

O NiFi automatiza fluxos de dados, assegurando conformidade, privacidade e segurança na troca de dados entre sistemas.

Ozone - Armazenamento Massivo de Dados

O Ozone é uma solução de armazenamento distribuído e redundante de objetos, optimizada para cargas de trabalho de Big Data e escalável para milhares de milhões de objetos.

Ranger - Autorização e Auditoria

O Apache Ranger é um framework para permitir, monitorizar e gerenciar a segurança de dados de forma abrangente na plataforma Hadoop.

Ranger KMS - Gestão de Chaves Criptográficas

É uma solução desenhada para gerenciar e proteger chaves de encriptação, garantindo a confidencialidade e integridade de dados sensíveis.

Spark - Computação Distribuída

O Apache Spark é um motor de análise unificada para o processamento de dados em larga escala de forma distribuída.

Sqoop - Ingestão de Dados

O Apache Sqoop é uma ferramenta de linha de comandos concebida para transferir dados em massa entre Apache Hadoop e bases de dados relacionais.

Solr - Pesquisa e Indexação de Texto

O Apache Solr é uma plataforma de pesquisa empresarial open-source baseada no Apache Lucene, orientada para recuperação de documentos.

Superset - BI e Visualização de Dados

O Apache Superset é uma aplicação web de BI com recursos para visualização, exploração e análise de dados por utilizadores com diferentes níveis de conhecimento.

Trino - Motor de Consultas Distribuídas

O Trino é um motor SQL distribuído para executar consultas complexas sobre grandes volumes de dados armazenados em várias fontes, sem mover nem duplicar dados.

Zeppelin - Notebook Colaborativo

O Apache Zeppelin é um notebook web para ingestão, exploração, visualização e colaboração interativa de dados com Hadoop e Spark.

Zookeeper - Coordenação Distribuída

O Zookeeper é um serviço centralizado open-source para coordenação de aplicações distribuídas, oferecendo APIs simples para criação de serviços de alto nível.