Modern Data Stack: o guia para obter sucesso nos negócios
O Modern Data Stack (MDS), ou sistema moderno de dados, é um conceito que chegou para revolucionar e modernizar a infraestrutura de dados das empresas.
Este guia é para você entender o que é Modern Data Stack, para que serve isso, por que e como implementar um sistema moderno de dados na sua organização, e quais são os princípios que compõem toda essa metodologia de negócios que vai fazer a sua empresa alavancar, com certeza.
E se mesmo assim você ficar com alguma dúvida sobre o Modern Data Stack, estamos sempre disponíveis e somos muito acessíveis para ajudar. Então, basta você nos contatar por um de nossos canais de comunicação.
Agora, aproveite este guia completo sobre o Modern Data Stack que preparamos para você.
O que é Modern Data Stack?
A nova combinação de boas práticas com ferramentas para a criação de infraestruturas de dados é conhecida como Modern Data Stack.
Uma de suas características mais marcantes são as ferramentas analíticas e tecnologias open-source que atendem demandas de uma infraestrutura de dados complexa de forma altamente eficiente.
O que isso quer dizer na prática?
Que com um Modern Data Stack é possível combinar ferramentas que executam funções distintas, como integrar, armazenar ou visualizar dados, para montar um sistema de dados moderno, mutável e muito mais independente.
Talvez você já tenha encontrado nomes diferentes para a mesma coisa:
Entretanto, ainda que não exista uma nomenclatura padronizada sobre o tema, seu conceito é o mesmo.
E muito mais do que uma tecnologia, esse sistema reúne todos os elementos necessários para solucionar os desafios de data science e analytics de empresas modernas.
Veja um exemplo de como o Modern Data Stack funciona
Considere uma empresa que aumentou drasticamente sua base de clientes e necessita expandir sua solução de armazenamento de dados.
Caso ela utilize o sistema moderno de dados, terá duas opções:
- simplesmente adequar sua solução atual às novas demandas.
- substituí-la por outra ferramenta que atenda às suas necessidades.
Ou seja, com o MDS, as organizações têm mais flexibilidade para fazer ajustes pontuais e reinventar sua estrutura sem precisar transformá-la por completo. O resultado?
- Menos custos.
- Mais escalabilidade.
- Mais autonomia.
Hoje, graças às novas tecnologias e ferramentas disponíveis, ficou muito mais fácil adotar o sistema moderno de dados.
E para você compreender as diferenças entre uma sistema de analytics tradicional e Modern Data Stack, vamos explicar detalhando as vantagens em modernizar sua empresa.
Analytics tradicional vs Modern Data Stack
A principal diferença entre analytics tradicional e Modern Data Stack está na adoção de novas metodologias e ferramentas independentes. Somente elas dão autonomia às empresas e podem ser substituídas a qualquer momento por métodos e soluções que atendem demandas mais atuais.
Vamos explicar melhor.
Houve um tempo em que, para ter acesso aos dados, era necessário ter ótimas condições financeiras. Ainda assim, era um serviço centralizado, que exigia mais tempo para solicitar e comunicar do que de fato acessar e analisar.
Essa é a realidade de sistemas de dados tradicionais, que até funcionam, mas que tendem a serem progressivamente substituídos. Bem como o ETL, processo também tradicional de transformação de dados eficiente, mas que não responde mais tão bem quanto outros métodos, como o ELT.
Portanto, tudo isso está mudando. As equipes de negócio não precisam mais ficar tão distantes e dependentes das de TI. E as metodologias e ferramentas são limitadas e precisam ser renovadas para dar conta das demandas de um big data.
Para conseguir se adaptar à nova realidade e prosperar no mundo dos dados, todo e qualquer tipo de negócio deveria seguir os princípios do Modern Data Stack. A começar pela aproximação da área de TI com a de negócios, e a adoção do processo de ELT no lugar do ETL.
Com um sistema moderno de dados assim, todas as empresas têm condições de ser data-driven. Inclusive a sua.
No entanto, para obter sucesso na implementação dessas práticas, é necessário entender o que exatamente um sistema moderno de dados precisa ter.
O que é um sistema moderno de dados?
O sistema moderno de dados, ou Modern Data Stack (MDS), é a base estrutural que uma empresa precisa para acompanhar o crescimento das suas operações de dados atuais de forma altamente escalável.
Essa infraestrutura é composta por pessoas, processos e ferramentas que, juntos, garantem a flexibilidade, a adaptabilidade e a acessibilidade necessárias para um negócio se manter em meio às constantes mudanças do mercado e das tecnologias.
A transição do método ETL (do inglês, extract, transform, load) para o ELT (do inglês, extract, load, transform), por exemplo, é um dos principais diferenciais de infraestrutura no Modern Data Stack.
Conheça agora algumas razões para trabalhar com esse novo sistema.
Por que construir um sistema moderno de dados?
Porque só com um sistema moderno de dados é possível acompanhar a transformação digital e as mudanças contínuas do mercado. É com ele que você será capaz de assimilar os avanços sem precisar reformular toda a sua infraestrutura cada vez que surgirem contingências ou inovações.
Além disso, para manter a competitividade e conseguir escalar suas operações, é preciso ter posse e controle sobre seus dados e sobre onde eles estão armazenados. Para isso, recursos modernos estão à disposição com custos acessíveis para empresas de todos os portes e setores.
E tem mais!
Ao substituir o ETL pelo ELT, como explicamos superficialmente acima, sua empresa já terá inúmeros benefícios, como:
- mais agilidade para analisar grandes volumes de dados.
- menos custos com manutenção.
- menos gastos com recursos.
- mais colaboração entre times de negócios e profissionais técnicos.
- maior eficiência e produtividade nas operações de dados, entre outros.
Então, se você deseja obter sucesso e manter vantagem competitiva na era dos dados, já sabe a dica da Indicium: construa um sistema moderno de dados.
6 princípios do sistema moderno de dados
A cada dia surgem novas ferramentas e aplicações de ponta em termos de dados. Por isso, antes de implementar um sistema moderno de dados em sua organização, é preciso entender os princípios que orientam sua infraestrutura.
Tendo isso em vista, veja agora 6 princípios que todo Modern Data Stack precisa ter.
Princípio 1: cloud-based
Para garantir escalabilidade e flexibilidade das infraestruturas de dados, o armazenamento dessas informações deve ser totalmente centralizado em nuvem (cloud-based), com data warehouses e data lakes.
Trata-se de uma tecnologia altamente escalável e flexível, que permite o processamento de uma quantidade virtualmente infinita de dados em um ambiente online e seguro. Com os serviços de nuvem, você reduz os custos de infraestrutura, instalação e manutenção.
Quer uma dica sobre ferramentas de cloud computing?
Algumas das mais acessíveis e conhecidas do mercado são:
- Google Cloud
- Azure
- AWS
- Locaweb
Princípio 2: modularidade
Separe as etapas do seu projeto. Dessa forma, você consegue utilizar ferramentas específicas para cada uma, o que permite às equipes trabalhar de forma incremental e acelera a implementação do projeto.
Por exemplo, no processo de ELT, você pode separar as regras de negócio das etapas de extract e load utilizando ferramentas 3rd-party para integração de dados, como Fivetran e Stichdata. E pode utilizar outras ferramentas para a etapa de transformação, como o dbt.
Princípio 3: simplicidade
Simplifique o trabalho das pessoas e deixe o complicado para as ferramentas.
Em outras palavras, ao invés de escrever códigos em linguagens complexas, como Java, Python e Scala, centralize a transformação em uma só linguagem. De preferência, utilize SQL, a linguagem universal de todas as grandes ferramentas de dados hoje em dia.
Com isso, você reduz custos de treinamento e manutenção, facilita o entendimento organizacional e ganha muitas outras vantagens, mas aí teríamos assunto para outro artigo.
Princípio 4: governança
Faça o máximo de esforço para deixar todas as informações centralizadas e facilmente acessíveis em um só local. Além disso, mantenha a documentação simplificada e a boa governança de dados.
Se você seguir essas boas práticas, será muito mais fácil criar lógicas de permissionamento e gerenciar os dados sensíveis de forma integrada.
Princípio 5: versionamento
Defina regras para o versionamento dos seus arquivos e dados. O trabalho colaborativo é extremamente importante nos projetos de dados e é preciso diminuir ao máximo conflitos gerados pelas diferentes versões geradas.
Com as ferramentas utilizadas nno sistema moderno de dados, esse problema fica cada vez menos recorrente.
Princípio 6: DataOps
Adote a cultura DataOps. Sabe o que isso quer dizer?
Crie ambientes distintos para separação de dados brutos, dados em transformação e dados finais. Isso facilitará o acesso aos diferentes ambientes de desenvolvimento, além de agilizar o trabalho colaborativo e reduzir erros de produção.
E mantenha boas práticas de testes nos seus projetos de dados, como fazem as equipes de desenvolvimento nos projetos modernos de software. Assim, a consistência e a confiabilidade dos resultados vão estar garantidas.
Implementar um sistema moderno de dados seguindo esses princípios é mais simples do que você imagina!
- Escolha a arquitetura correta.
- Escolha as pessoas e as funções corretas.
- Implemente uma cultura data-driven.
- Tenha um objetivo claro.
- Não permita lock-in de ferramentas.
- Foque no seu core business.
Assista ao nosso cofundador e head de data science, Daniel Avancini, ensinando NA PRÁTICA como criar um sistema moderno de dados.
Como construir um Modern Data Stack?
Para obter sucesso na implementação do Modern Data Stack, é necessário entender como todas as suas peças se encaixam, desde as etapas do data stack até as tecnologias e ferramentas recomendadas para a sua execução.
Data stack: o sistema de dados
Primeiramente, o que é um data stack?
O sistema de dados, ou data stack, é a coleção de processos, ferramentas, aplicações e tecnologias responsável pela automatização do gerenciamento de dados no negócio em todas as etapas do data pipeline.
O primeiro passo na implementação do sistema moderno de dados, portanto, é a estruturação e, posteriormente, a configuração do data stack.
Com isso, é possível responder a demandas de operações de dados atuais de forma altamente eficiente ao longo do fluxo de dados.
Os 5 estágios do Modern Data Stack
Agora, veja mais detalhes sobre cada um dos 5 estágios do Modern Data Stack.
Estágio 1: coleta, integração e limpeza de dados
Empresas têm seu próprio processo para coleta de dados relevantes. Nessa etapa do data stack, é possível coletar e integrar dados de múltiplas fontes como CRMs, planilhas de Excel, mídias sociais etc, centralizando-os em um data warehouse de forma eficiente.
É nesse momento que, com auxílio das ferramentas corretas, realizam-se os ajustes necessários para que os dados estejam preparados para a etapa seguinte do data stack.
Estágio 2: armazenamento e gerenciamento de dados
Agora, os dados devem ser preparados e armazenados em data warehouses e data lakes, estruturas escaláveis e seguras que possibilitam análises e gerenciamento de informações em larga escala. Essas ferramentas são componentes fundamentais do data stack.
Estágio 3: transformação de dados
Considerando o volume massivo de dados para processamento, ao invés do tradicional ETL (extract, transform, load), utiliza-se o fluxo moderno de ELT, uma abordagem mais rápida e flexível para a transformação de dados.
No ELT, o processo de transformação ocorre logo após a coleta e integração das informações em um repositório de dados centralizado, e não antes, como ocorre nos casos do ETL.
Com isso, é possível transformar dados brutos em dados modelados dentro de um data warehouse ou data lake.
Estágio 4: business intelligence e data analytics
Inteligência analítica é a prioridade final do Modern Data Stack. Assim, depois da configuração das etapas anteriores, as informações e os insights que agregam valor à tomada de decisão empresarial finalmente se tornam acessíveis aos usuários finais em tempo real. Como resultado, gestores e departamentos de negócio podem visualizar dados, identificar tendências, otimizar processos e agir rapidamente com auxílio de ferramentas de business intelligence, dashboards interativos e relatórios inteligentes, conectados a um data warehouse.
Estágio 5: advanced analytics
Na última e mais avançada etapa da MDS, é possível aplicar e desenvolver técnicas avançadas de machine learning, inteligência artificial e modelagem preditiva altamente complexas, como modelos de recomendação e modelagem prescritiva, dentro do sistema moderno de dados configurado nas etapas anteriores.
Modern Data Stack para todos
Na prática, qualquer data stack construído com base nos 5 estágios básicos descritos acima preenche os requisitos necessários para suportar o crescimento escalável das operações de dados modernas.
Dessa forma, ainda que a arquitetura de um pipeline de dados varie de acordo com as empresas, todas devem ter esses processos incorporados.
Todos esses conceitos abordados até aqui serão extremamente úteis à medida que avançamos na discussão sobre as ferramentas e tecnologias recomendadas para a implementação de um Modern Data Stack no seu negócio, a seguir.
As principais ferramentas do Modern Data Stack
No Modern Data Stack, além das etapas do fluxo de dados, as ferramentas e tecnologias usadas em cada etapa dessa metodologia são elementos essenciais que determinam o sucesso da implementação do sistema moderno de dados.
Nós analisamos as principais ferramentas disponíveis no mercado para a construção de um sistema moderno de dados escalável e flexível e vamos compartilhar com você essa análise agora.
Ferramentas de coleta, deployment e transformação de dados
O fluxo de dados da Modern Data Stack começa pela coleta, etapa em que os dados já são integrados por ferramentas especializadas no processo. Juntamente a isso, já são devidamente parametrizadas as ferramentas de deployment, para que tudo ocorra de forma eficiente nas etapas de armazenamento e transformação de dados.
Coleta e integração de dados
Ferramentas como o Fivetran e Stitchdata são as líderes na integração de dados na nuvem.
Elas permitem mover dados de centenas de fontes, como ERPs, CRMs, bancos de dados, REST APIs etc., diretamente para um data warehouse (na nuvem ou on-premises). Além disso, podem ser combinadas.
Com isso, não há necessidade de grandes investimentos em licenças de software ou horas de implementação.
Deployment
Ferramentas como Docker e o Kubernetes são muito utilizadas para realizar o deployment em conjunto com orquestradores, como o Airflow e Prefect.
O diferencial dessas tecnologias é fazer com que todas as “peças do Lego” conversem de forma harmônica entre si, garantindo que os dados fluam em sintonia ao longo da estrutura de dados.
Transformação de dados
As três principais ferramentas da Modern Data Stack usadas para a transformação de dados são o dbt (data build tool), o Dataform e o Spark. Juntas, essas tecnologias permitem a execução do processo de ELT para a transformação dos dados brutos em dados modelados dentro de um data warehouse, etapa fundamental do sistema moderno de dados.
Ferramentas de armazenamento e gerenciamento de dados
Hoje, existem duas opções práticas e eficientes quanto ao armazenamento de dados tanto on-premises quanto na nuvem: data warehouses e data lakes. Ambas são alternativas viáveis, no entanto, devem ser avaliadas caso a caso, pois apresentam diferenças técnicas e conceituais em termos de arquitetura e finalidade.
Data warehouses
A arquitetura escalável de data warehouses na nuvem, como o Amazon Redshift, Snowflake, Google Big Query a Azure Synapse, permite o armazenamento e a consulta de volumes enormes de dados de forma rápida. Por isso, essas são ferramentas essenciais na construção de um sistema moderno de dados.
Data lakes
Data lakes armazenam todos os tipos de dados - estruturados, não estruturados e híbridos - em um só lugar. Para essa finalidade, indicamos as seguintes ferramentas: Dremio, Databricks e Amazon S3.
Computação na nuvem
Atualmente, os principais provedores de computação na nuvem são a AWS, Google Cloud e Microsoft Azure. É possível escolher quaisquer dessas opções de acordo com a necessidade da sua empresa para o armazenamento e gerenciamento dos seus dados.
Ferramentas de data analytics
Data analytics envolve diversas atividades quanto à análise de dados, que variam em termos de grau de complexidade e ferramentas.
Para facilitar a sua compreensão, é possível dividi-las em duas categorias: ferramentas de business intelligence e advanced analytics, ou análises avançadas.
Business intelligence
Com um sistema moderno de dados estabelecido, é possível utilizar diferentes ferramentas de business intelligence para visualizar, analisar e gerar insights a partir dos dados. Para tanto, há diversas alternativas open-source robustas, como o Metabase, bem como plataformas SaaS, como Microsoft PowerBI, Looker, Tableau entre outras.
Advanced analytics
Machine learning, inteligência artificial e modelagem são técnicas aplicadas em advanced analytics para análises mais complexas dentro do data stack. Para isso, além das diversas bibliotecas nas linguagens R e Python, ferramentas como MlFlow e Kedro auxiliam na execução de modelos preditivos e prescritivos, e otimizam o processo de desenvolvimento, reduzindo o tempo entre a modelagem e a utilização dos dados.
Não sabe como implementar o MDS na sua empresa?
Temos uma equipe altamente capacitada para ajudar você. Entre em contato hoje mesmo por aqui.
Bianca Santos
Redatora
Isabela Blasi
CBDO and co-founder at Indicium
Daniel Avancini
Chief Data Officer