As empresas orientadas por dados que adotaram o data lake como tecnologia de armazenamento estão se superando como nunca em seus negócios.
Afinal, para obter o melhor dos dados e prosperar neste mundo digital, é necessário dispor de tecnologias bem selecionadas e de boa qualidade, que possibilitarão seu sucesso na atual indústria 4.0.
Portanto, para garantir o futuro dos seus projetos, faça como grandes especialistas e revolucione a maneira como estrutura e utiliza os dados construindo um data lake.
Confira agora como fazer isso em quatro etapas!
O que é um data lake?
Em primeiro lugar, vamos rever o conceito de data lake - ou, em português, lago de dados. Ele é basicamente um depósito que permite armazenar todos os tipos de dados (estruturados, não estruturados e híbridos) em um só lugar e em grande escala (sua escalabilidade é infinita!).
Seu principal objetivo é justamente essa centralização de todos os dados brutos para que eles estejam disponíveis ao time de dados, que vai trabalhar para obter resultados e respostas a novas oportunidades de negócios o mais rápido possível.
Mas atenção, porque um data lake só é uma ferramenta eficaz se for devidamente construída.
E é por isso que, novamente, abrimos nossas portas e trouxemos para você o método que utilizamos aqui na Indicium, considerado o mais eficiente pelo nosso time especialista.
Então, vamos conhecer agora o passo a passo da construção de um data lake infalível?
Como construir um data lake em 4 etapas
Já está mais do que claro que o data lake é uma ferramenta dinâmica e poderosa que fornecerá informações valiosas, essenciais para o crescimento dos seus projetos e para o avanço dos negócios na Jornada Data Driven.
Porém, criar um data lake devidamente arquitetado e controlado na nuvem, apesar de ser acessível, não é tão simples quanto parece. Por isso, vamos mostrar agora como construir um data lake produtivo em quatro etapas.
Acompanhe!
Etapa 1: mapeamento das fontes de dados
A construção de um data lake se inicia com o esclarecimento de quais dados a organização precisa coletar e para qual objetivo de negócio.
Esta é uma etapa que consiste na identificação das fontes de dados necessárias para cada novo tipo de informação que precisa ser coletada. É uma tarefa de análise que necessita da comunicação entre departamentos.
Quer saber por quê?
Como a coleta de grandes volumes de dados não é o objetivo em si, é preciso focar no objetivo do negócio. Sendo assim, alguns dados podem ser mais valiosos do que outros.
Além disso, é necessário tomar cuidado para não deixar o data lake se tornar um data swamp (ou pântano de dados em português), onde dados são inseridos a esmo, sem contexto e sem gerar valor para a sua empresa.
E como fazer isso?
Com a comunicação! Ela é a chave para o sucesso do data lake. E aqui estão algumas perguntas a serem feitas para a definição de prioridades:
- os dados são rastreados em arquivos de log?
- eles são atualizados em lotes?
- são gerados em um fluxo de eventos?
- cada atividade é enviada separadamente, conforme acontece na fonte de origem?
- existem armazenamentos de dados que podem ser relacionais ou estruturados?
Em seguida, para cada fonte identificada, será preciso configurar o acesso aos ambientes de origem de dados. É quando surgem outras perguntas a serem feitas, como:
- quem são os administradores ou proprietários dos ambientes de originação de dados?
Com essas informações, você já consegue determinar quais dados você realmente precisa, e pode comunicar as necessidades específicas aos administradores e proprietários de dados.
Uma dica importante para o início desse processo é estabelecer dois planejamentos para obter os dados necessários (um imediato e um futuro).
Etapa 2: ingestão de dados
Esta é a etapa em que os dados coletados de diversas fontes são transferidos para o data lake.
É uma tarefa bem técnica que envolve organizar e catalogar os dados para que os usuários saibam exatamente o que está armazenado no data lake e possam encontrá-los e acessá-los facilmente.
Aqui, você verá que as informações comunicadas na etapa 1 serão extremamente úteis. Isso porque, para cada tipo de dado, há alguns detalhes que contribuem para que sua ingestão seja mais produtiva. Veja alguns exemplos a seguir.
- Para dados em lote: você deve configurar processos para agendar transferências periódicas de arquivos ou extrações de dados em lote.
- Para dados de eventos: você deve configurar processos para receber os eventos - pode ser um evento terminal - e, inclusive, se houver um formato de evento padrão (ação, objeto), você pode configurar uma função de receptor que transformará todos os eventos de entrada no formato padrão antes de enviá-los através da mangueira de incêndio do data lake.
- Para dados de log: você deve determinar por quanto tempo eles estarão disponíveis, por exemplo, configurando-os para expirarem após determinado período e, com isso, você precisará garantir que todo o histórico de registro seja preservado.
Além dessas especificidades dos tipos de dados, existem outras tarefas importantes nessa etapa de ingestão, como:
- configurar o local de armazenamento no data lake.
- estabelecer uma abordagem consistente de nomenclatura e armazenamento de bucket.
- definir como você vai lidar com os ambientes de produção, desenvolvimento e testes, considerando seus ambientes de origem e os internos no data lake.
- configurar processos para trazer dados de referência (usuários, departamentos, eventos de calendário, nomes de projetos de trabalho).
- considerar outros grupos ou departamentos que podem ser afetados por quaisquer novos processos estabelecidos e comunicar as mudanças de forma proativa.
Etapa 3: transformação de dados
Na terceira etapa, o foco é a limpeza e organização dos dados. É quando você vai começar a lidar com as melhores formas de combinar dados de maneira mais significativa para atender a relatórios de downstream ou a consultas de dashboards.
Para isso, há cinco passos dentro desta etapa, que vamos resumir rapidamente para você.
- Localizar e determinar identificadores comuns nos registros de dados de entrada.
- Identificar estruturas semelhantes, mas com nomes diferentes nos campos de dados e definir uma lógica para quaisquer transformações que ocorrerem (análise de identificadores específicos de campos de string, por exemplo).
- Determinar como lidar com a visualização de campos que contêm strings que podem ser muito longas ou ter caracteres que não serão suportados.
- Construir e manter um conjunto de tabelas mapeadas, com identificadores locais e globais, para unificar os dados entre os sistemas.
- Manter a comunicação com quaisquer departamentos ou grupos que possuam (ou possam ajudar a localizar) a fonte de origem para validar identificadores.
Etapa 4: consumo dos dados
Por fim, chega a etapa em que os dados serão posicionados em estruturas que são otimizadas para uso posterior.
É quando bibliotecas de consultas são criadas e comunicadas aos departamentos e usuários que irão se beneficiar delas.
E também é quando são realizados testes para validação de todas as configurações feitas. Então, após essa legitimação, eles podem finalmente ser acessados de várias formas por várias ferramentas de business intelligence.
Além disso, nesta última etapa, há algumas boas práticas a serem realizadas na finalização de um data lake de sucesso.
Por exemplo, avaliar se as consultas e visualizações podem ser armazenadas em programas de desenvolvimento que permitam seu compartilhamento e sua reutilização. Isso é bom para conectar profissionais de ciência de dados para criar protótipos e validar algoritmos.
E para finalizar, enfatizamos: sempre mantenha uma comunicação regular com os usuários do data lake para determinar novos requisitos para fontes de dados novas ou estendidas.
Por que você deve adotar o data lake em seus projetos?
Aqui na Indicium, nós gostamos de falar que projetos de data lake são projetos de negócio, não de TI. Portanto, você só deve adotar um data lake se ele fizer parte de um projeto maior que tenha como objetivo gerar resultados reais na sua organização.
Em outras palavras, o data lake vai fazer parte de uma plataforma de dados moderna completa, desenhada a partir das necessidades de evolução da empresa na Jornada Data Driven.
Então, siga essas quatro etapas e aproveite todo o poder que um data lake tem.
Quer saber mais sobre o poder dos dados?
Acesse nosso blog clicando aqui.
Bianca Santos
Redatora