Já temos um Data Warehouse, precisamos de um Data Lake?

blank

Ao construir programas de dados e análise, você deve decidir se precisa de um data warehouse, um data lake ou ambos. Entender a diferença é o primeiro passo. 

Qualquer pessoa que crie dados e programas de análise já ouviu os termos data warehouse e data lake. Você pode até ter um data warehouse para que os painéis e scorecards estejam disponíveis para os usuários. 

Você pode questionar como seu data warehouse é diferente de um data lake e se ambos precisam fazer parte da estratégia de análise geral..

A resposta é que essas duas estruturas têm papéis diferentes na organização. Data warehouses e data lakes são diferentes na estrutura de dados, base de usuários e modelo de governança. Depois de entender essas diferenças, você pode avaliar facilmente se precisa de apenas um ou de ambos.

Estrutura

A primeira diferença básica entre um data warehouse e um data lake é a estrutura dos dados. Os data warehouses existem desde a década de 1970 e foram descritos por Bill Inmon como uma coleta de dados orientada para o assunto, integrada, variável no tempo e não volátil para apoiar as decisões de gerenciamento. O que essas partes significam?

Orientado por assunto: os dados são estruturados em torno de áreas de negócios específicas (por exemplo, vendas, estoque ou recursos humanos). Normalmente, esses depósitos aumentarão de tópico para tópico até que possam responder às perguntas da empresa.

Integrado: quando os dados da organização são distribuídos em vários sistemas transacionais, os dados são mesclados e integrados para fornecer uma visão geral da área de assunto. Isso envolve processos de qualidade de dados e elementos de correspondência e mesclagem de dados para criar coesão entre dados diferentes.

Variável no tempo: Os dados históricos são armazenados no data warehouse. As alterações nos dados serão mantidas para que o relatório possa representar com precisão a visão do ponto histórico. Um exemplo é manter o endereço anterior do cliente para representar com precisão as vendas por local ao longo do tempo, sem atualizar essas vendas conforme o cliente se move.

Não volátil: Depois que os dados forem carregados no data warehouse, eles não serão alterados. Isso cria estabilidade para o relatório. O controle de versão e as dimensões que mudam lentamente são usados ​​para mostrar as mudanças ao longo do tempo.

O data lake é muito diferente. É um repositório de dados em formato bruto ou natural. Isso pode incluir dados relacionais, semi estruturados, não estruturados e até mesmo binários. A ideia do data lake é reduzir a reorganização e limpeza de dados para acelerar o carregamento de dados de fontes múltiplas. 

Isso não significa que o data lake seja puro caos; ele é estruturado para uma carga ideal e, em última análise, estruturado. O objetivo é realizar uma estrutura nos dados durante o processo de leitura, mesclar e combinar os dados originais nas coisas valiosas necessárias.

O data lake também pode conter todos os dados, incluindo dados que estão em uso e dados que podem ser usados ​​no futuro. A natureza extensa dos conjuntos de dados no data lake fornece recursos ideais para a construção de data warehouses agora e no futuro. 

Como novas áreas de assunto foram identificadas no data warehouse, o data lake já possui os dados necessários para realizar a construção inicial e aumentar continuamente a carga.

Usuários

Como o data warehouse é projetado especificamente para responder a perguntas orientadas a tópicos, ele tem a mais alta disponibilidade. Isso significa que um grande número de consumidores de informações e tomadores de decisão na organização pode extrair informações do data warehouse.

O esquema em estrela é um dos modelos mais comuns de data warehouses e foi integrado a ferramentas de relatório como Microsoft Power BI, Tableau e QlikView para permitir que os usuários arrastem e soltem elementos e criem facilmente relatórios, painéis e scorecards poderosos. 

No entanto, se eles precisam de dados novos e inovadores, geralmente precisam coordenar e colaborar com o departamento de TI para construir esses elementos de dados no data warehouse. Após a conclusão, eles podem ser usados ​​para diversos fins comerciais.

O data lake contém vários tipos de dados estruturados, semiestruturados e não estruturados, portanto, o público deve ter um nível mais alto de tecnologia para extrair informações – seus usuários são cientistas de dados, engenheiros de dados e desenvolvedores de análises que usam várias ferramentas para realizar descobertas com data mining e machine learning.

De linguagens de programação como R, Python e SAS a ferramentas gráficas de descoberta de dados como Knime e RapidMiner, essas ferramentas fornecem muitos métodos para extrair diferentes tipos de dados e realizar análises neles.

Os usuários neste ambiente têm grande flexibilidade em quais análises podem ser realizadas e quais respostas podem ser descobertas. Eles geralmente extraem uma pequena parte dos dados em um ambiente de análise temporário e usam apenas esse subconjunto para encontrar a resposta.

Usuários mais avançados, como cientistas de dados, encontrarão valor no uso de data warehouses e data lakes. Eles têm ampla experiência em equilibrar a dificuldade de extração de fontes e a natureza da análise, e frequentemente alternam entre ferramentas. Normalmente, fazer experiências com dados no data lake resultará na necessidade de estabelecer recursos permanentes para fazer melhorias de longo prazo no data warehouse.

Governança

O data warehouse requer planejamento e controle preliminares para garantir que a mais ampla base de usuários ainda possa acessá-lo – seu modelo de governança é muito mais forte do que o data lake. As alterações do data warehouse precisam ser desenvolvidas e testadas antes de serem movidas para o ambiente de produção. 

Quando ocorrem mudanças, o catálogo de dados e a camada semântica de negócios devem ser atualizados para garantir que os novos elementos de dados possam ser usados. Esse modelo de governança maduro é necessário quando os ativos de informação têm o maior valor operacional contínuo para a organização.

Em termos de operações que podem ser realizadas internamente, a governança do data lake é muito menor. Isso é verdade quer se trate de adicionar uma nova estrutura ou do tipo de experimento que pode ser feito usando os dados do ambiente. É essa liberdade que permite ao cientista de dados descobrir os insights com maior probabilidade de mudar o negócio.

É aqui que o data lake e o data warehouse podem interagir perfeitamente. Os engenheiros e cientistas de dados podem realizar análises e experimentos no data lake. Assim que o resultado for satisfatório, ele pode ser sistematicamente incluído em todo o processo de desenvolvimento e implementação em produção no data warehouse para beneficiar um público mais amplo. 

Isso permite que a organização equilibre as condições que se mostram eficazes e as condições necessárias para manter o desenvolvimento do negócio, e entre inovação e inovação, que podem interromper o negócio e trazê-lo para um novo espaço.

Para resumir

Um data warehouse não é o mesmo que um data lake. Cada um tem valor para a organização. Eles podem ser implantados de forma independente ou em conjunto para atender às suas metas de negócios. A chave é entender a função desempenhada por cada função e fazer escolhas sábias com base em seus dados e estratégia de análise.