Conceitos
A Plataforma TDP é composta pelos principais softwares do Ecossistema de Big Data Open Source. Consulte aqui informações conceptuais de todos os componentes disponíveis.
Airflow - Orquestração de Pipelines
O Airflow oferece funcionalidades importantes que o tornam especialmente adequado para a implementação de pipelines de dados eficientes e orientadas por lotes.
Ambari - Administração Centralizada
O Apache Ambari permite a automatização do deployment, gestão de serviços e nós (hosts), monitorização sistémica do ambiente, versionamento de configurações e muito mais.
Atlas - Governação de Dados
O Apache Atlas permite às organizações construir um catálogo dos seus ativos, classificá-los, geri-los e fornecer capacidades de colaboração para a sua utilização por cientistas de dados e equipas de governação.
Druid - Análise de Dados em Tempo Real
Concebido para análises rápidas e fragmentadas (consultas OLAP) em grandes volumes de dados, o Druid potencia casos de uso em que a ingestão em tempo real, o desempenho rápido das consultas e a alta produtividade são essenciais.
Flink - Processamento de Dados Distribuídos
O Apache Flink é uma framework e motor de processamento distribuído para computação com estado sobre fluxos de dados limitados e ilimitados.
GX - Great Expectations - Garantia de Qualidade de Dados
O Great Expectations (GX) é uma ferramenta open-source concebida para tornar o processo de validação e garantia de qualidade de dados mais acessível, automatizado e eficiente.
Hadoop
O Apache Hadoop define uma arquitetura para processamento distribuído e paralelo de grandes volumes de dados, permitindo a sua execução em múltiplos servidores com modelos de programação simples.
HDFS - Sistema de Ficheiros Distribuído
O HDFS (Hadoop Distributed File System) é o sistema de armazenamento principal utilizado pelo Hadoop.
MapReduce - Framework de Processamento Distribuído
O Apache MapReduce é uma framework desenvolvida para escrever aplicações que processam grandes volumes de dados em clusters de hardware convencional.
YARN - Gestor de Recursos
O Apache YARN é responsável pela gestão de recursos nos clusters, assumindo ainda o agendamento e alocação de recursos no sistema Hadoop.
HBase - NoSQL Distribuído
O HBase permite acesso aleatório eficiente e leitura/gravação em tempo real sobre grandes volumes de dados distribuídos.
Hive - Exploração e Análise de Dados
O Hive facilita o trabalho de utilizadores de data warehouses com conhecimentos em SQL, mas que tenham dificuldade em utilizar Java ou outras linguagens.
Iceberg - Formato de Tabela
O Apache Iceberg permite acesso a dados históricos em tempo real de forma coesa, garantindo integridade e consistência dos dados.
Kafka - _Streaming_ de Dados
O Kafka é a plataforma de streaming de eventos mais utilizada para recolher, processar, armazenar e integrar dados em escala.
Kerberos - Autenticação e Propagação de Identidade
O Kerberos é um protocolo open-source de autenticação em rede que fornece Single Sign-On (SSO) com autenticação mútua confiável. É utilizado em clusters Hadoop para acesso seguro.
Knox - Gateway e Acesso Unificado
O Apache Knox atua como um proxy de aplicações na camada de perímetro, recebendo pedidos de clientes e encaminhando-os para o serviço pretendido.
Livy - Gestão de Sessões Spark
O Livy fornece uma forma simples de interagir com um cluster Apache Spark através de API REST, permitindo submeter e gerenciar trabalhos Spark remotamente.
NiFi - Gestão e Automação de Fluxos de Dados
O NiFi automatiza fluxos de dados, assegurando conformidade, privacidade e segurança na troca de dados entre sistemas.
Ozone - Armazenamento Massivo de Dados
O Ozone é uma solução de armazenamento distribuído e redundante de objetos, optimizada para cargas de trabalho de Big Data e escalável para milhares de milhões de objetos.
Ranger - Autorização e Auditoria
O Apache Ranger é um framework para permitir, monitorizar e gerenciar a segurança de dados de forma abrangente na plataforma Hadoop.
Ranger-KMS - Gestão de Chaves Criptográficas
É uma solução desenhada para gerenciar e proteger chaves de encriptação, garantindo a confidencialidade e integridade de dados sensíveis.
Spark - Computação Distribuída
O Apache Spark é um motor de análise unificada para o processamento de dados em larga escala de forma distribuída.
Sqoop - Ingestão de Dados
O Apache Sqoop é uma ferramenta de linha de comandos concebida para transferir dados em massa entre Apache Hadoop e bases de dados relacionais.
Solr - Pesquisa e Indexação de Texto
O Apache Solr é uma plataforma de pesquisa empresarial open-source baseada no Apache Lucene, orientada para recuperação de documentos.
Superset - BI e Visualização de Dados
O Apache Superset é uma aplicação web de BI com recursos para visualização, exploração e análise de dados por utilizadores com diferentes níveis de conhecimento.
Trino - Motor de Consultas Distribuídas
O Trino é um motor SQL distribuído para executar consultas complexas sobre grandes volumes de dados armazenados em várias fontes, sem mover nem duplicar dados.
Zeppelin - Notebook Colaborativo
O Apache Zeppelin é um notebook web para ingestão, exploração, visualização e colaboração interativa de dados com Hadoop e Spark.
Zookeeper - Coordenação Distribuída
O Zookeeper é um serviço centralizado open-source para coordenação de aplicações distribuídas, oferecendo APIs simples para criação de serviços de alto nível.