Saltar para o conteúdo principal
Versão 3.0.0

Integrações — Delta Lake

Visão geral das integrações

O chart tdp-deltalake requer acesso ao armazenamento S3-compatível (Apache Ozone S3 Gateway, MinIO ou outro endpoint S3) e pode ser integrado às principais ferramentas de processamento e orquestração do TDP.

S3 / MinIO

Os CronJobs de manutenção requerem um Secret com as credenciais de acesso ao S3.

Criar o Secret

Terminal input
kubectl -n <namespace> create secret generic s3-credentials \
--from-literal=access-key='<ACCESS_KEY>' \
--from-literal=secret-key='<SECRET_KEY>'
Credenciais

Armazene as credenciais em um arquivo de valores separado (fora do Git) ou em um Secret Kubernetes existente. Nunca as inclua diretamente no repositório.

Configurar o endpoint S3

maintenance:
spark:
config:
"spark.hadoop.fs.s3a.endpoint": "http://<s3-host>.<namespace>.svc.cluster.local:9000"
"spark.hadoop.fs.s3a.path.style.access": "true"

Parâmetros S3

ParâmetroDescriçãoExemplo
spark.hadoop.fs.s3a.endpointURL do endpoint S3http://ozone-s3g.<ns>.svc.cluster.local:9000
spark.hadoop.fs.s3a.path.style.accessForçar path-style (necessário para MinIO/Ozone)"true"

Trino

O Trino pode consultar tabelas Delta Lake via conector Delta. A configuração é realizada do lado do chart tdp-trino — consulte Configuração do Trino.

Spark

As tabelas Delta Lake podem ser processadas diretamente pelo Spark. A configuração é realizada do lado do chart tdp-spark — consulte Configuração do Spark.

Airflow

O Airflow pode orquestrar pipelines que leem e escrevem tabelas Delta Lake. A configuração de conexão é realizada do lado do chart tdp-airflow — consulte Integrações — Airflow.

Combinando arquivos de valores

Terminal input
helm upgrade --install <release> \
oci://registry.tecnisys.com.br/tdp/charts/tdp-deltalake \
-n <namespace> \
-f meu-values.yaml \
-f values-integracao.yaml