Pipelines de ingestão e transformação de dados de quase realização de tempo barato na AWS

24 de abril de 2023 449

A definição do que é um lago de dados é provavelmente um pouco diferente, dependendo de quem você está pedindo (consulte AWS, Google Cloud, Azure, Databricks, IBM ou Wikipedia).Flexibilidade: as organizações podem usar uma variedade de opções de armazenamento, incluindo armazenamento de objetos, armazenamento de arquivos e armazenamento de blocos, para armazenar seus dados.É apoiado por muitos mecanismos de processamento de big data, incluindo Apache Hadoop, Apache Spark, Apache Drill e muitos serviços de provedores de nuvem pública, como Amazon Athena e Aws Glue.Desempenho: Nos data warehouses tradicionais, os dados são movidos do armazenamento para o processamento, o que pode ser lento e demorado, levando a problemas de desempenho.Nos lagos de dados modernos, os dados são armazenados em um repositório central e o processamento é feito onde os dados residem.

Fonte: https://tobilg.com/casual-data-engineering-or-a-poor-mans-data-lake-in-the-cloud-part-i

linux-BR.org

Pipelines de ingestão e transformação de dados de quase realização de tempo barato na AWS

Trending posts dos últimos 30 dias

Python 3.14 compilado para metal – sem intérprete

Odin, Wikipedia e agricultura de engajamento

Avaliando o desempenho e a eficiência do equipamento agente do GitHub Copilot

ComAI – Um assistente Linux de código aberto para solução de problemas com LLMs locais

Mostrar HN: Multiserial – um terminal serial para macOS que não parece antigo

Comentários