Modern Data Stack: um sistema moderno de dados
O Modern Data Stack (MDS) é uma estratégia para criar infraestruturas modernas que ajudam empresas a superar desafios de integração, organização e gestão de dados.
Organizações de todos os portes já entendem a existência do poder dos dados, reconhecem a importância do seu uso nos negócios, mas não sabem como superar os desafios quanto à organização, integração e gerenciamento das informações que surgem.
Nesse sentido, surge o Modern Data Stack, ou sistema moderno de dados. Um conceito que chegou para revolucionar e modernizar a infraestrutura de dados das empresas.
Organizações que desejam crescer e manter-se competitivas precisam investir em uma infraestrutura de dados robusta, capaz de gerenciar grandes volumes de informação. Isso pode ser feito com o Modern Data Stack.
Neste post, você vai ler uma clara e resumida explicação sobre esse sistema que usamos aqui na Indicium.
O que é Modern Data Stack
O Modern Data Stack (MDS) é uma estratégia para criar infraestruturas modernas que ajudam empresas a superar desafios de integração, organização e gestão de dados.
O sistema moderno de dados, do inglês Modern Data Stack, é a nova combinação de boas práticas e ferramentas para criação de infraestruturas de dados.
Uma de suas características mais marcantes é a junção de diversas de ferramentas open-source para responder demandas de uma infraestrutura de dados complexa de forma altamente eficiente.
O que isso quer dizer na prática?
Com um MDS, é possível combinar ferramentas que executam funções distintas, como integrar, armazenar ou visualizar dados, para montar uma estrutura de dados moderna, mutável e mais independente.
Por exemplo, considere uma empresa que aumentou drasticamente a sua base de clientes e necessita expandir sua solução de armazenamento de dados.
Caso ela utilize o sistema moderno de dados, terá duas opções:
- adequar sua solução atual às novas demandas.
- substituí-la por outra ferramenta que atenda às suas necessidades, sem precisar reformular sua infraestrutura de dados por completo.
Ou seja, com MDS, as organizações têm mais flexibilidade para fazer ajustes pontuais e reinventar sua estrutura sem precisar transformá-la por completo. O resultado?
Menos custos, mais escalabilidade e autonomia.
Hoje, graças às novas tecnologias e ferramentas acessíveis, está muito mais fácil adotar o sistema moderno de dados.
No entanto, para obter sucesso na implementação dessas práticas, é necessário entender como todas as peças se encaixam.
Construindo um Modern Data Stack
Uma estrutura de dados eficiente combina diversos serviços em um data stack, que é um sistema de dados.
No geral, um sistema de dados tem três funções fundamentais:
- coletar e integrar dados em um data warehouse (uma “casa” para os dados).
- limpá-los e transformá-los em informações.
- agregar valor à tomada de decisão através de visualizações intuitivas, como os dashboards de BI.
Todas essas funções são processos de um pipeline de dados (um fluxo por onde os dados entram, são processados e saem transformados).
As ferramentas usadas para cada um desses processos formam o data stack. E, ainda que a arquitetura de um pipeline varie de acordo com cada empresa, todos os pipelines de dados têm esses processos incorporados.
Para esclarecer mais ainda o MDS para você, a seguir apresentamos, de acordo com o respectivo processo, as principais ferramentas disponíveis no mercado que são sucesso em milhares de projetos de dados de todos os portes no Brasil e no exterior.
1) Coleta e integração de dados
A disponibilização de dados de diversas fontes isoladas para análise é um dos principais desafios dos projetos de dados. Para superar isso, é preciso investir na coleta e integração dos dados.
Ferramentas como o Fivetran e Stitchdata são as líderes na integração de dados na nuvem. Elas permitem mover dados de centenas de fontes, como ERPs, CRMs, bancos de dados, REST APIs etc., diretamente para um data warehouse (na nuvem ou on-premises). Além disso, podem ser combinadas.
Com isso, não há necessidade de grandes investimentos em licenças de software ou horas de implementação.
Além disso, empresas que buscam coletar dados com maior precisão online e offline também podem utilizar Segment ou Snowplow para ter uma visão completa de seus clientes.
2) Data warehouse
Outra etapa fundamental da abordagem moderna de dados é a transformação dos dados brutos em dados modelados, o que ocorre dentro de um data warehouse (DW).
Ao centralizar as transformações dos dados no DW, há enormes ganhos de eficiência no projeto, especialmente através de abordagem ELT, que aumenta a flexibilidade no pipeline e garante autonomia aos analistas de negócio para definir as regras do negócio no DW, acelerando o projeto em meses.
No data warehouse, as duas principais ferramentas do Modern Data Stack usadas para a transformação de dados são o dbt e o Dataform.
Outra inovação recente e essencial nessa abordagem são os DWs em nuvem, como o Amazon Redshift e Google Big Query, que permitem armazenar e consultar volumes enormes de dados de forma rápida através de sua arquitetura escalável.
3) Business intelligence (BI)
Inteligência analítica é prioridade no Modern Data Stack.
Com um sistema de dados moderno estabelecido, é possível utilizar diferentes ferramentas de business intelligence para visualizar, analisar e gerar insights a partir dos dados.
Há diversas alternativas open-source robustas para isso, como o Metabase e as plataformas SaaS, como Microsoft PowerBI, Looker, Tableau entre outras.
Importante: o essencial para a abordagem moderna é que o BI não tenha um fim em si mesmo, mas gere valor rapidamente para a empresa.
4) Machine learning
Machine learning, inteligência artificial e modelagem são técnicas avançadas de analytics aplicadas para análises mais complexas dentro do data stack.
Para isso, além das diversas bibliotecas nas linguagens R e Python, ferramentas como MLFlow e Kedro auxiliam na execução de modelos preditivos e prescritivos e otimizam o processo de desenvolvimento, reduzindo o tempo entre a modelagem e a utilização dos dados, o calcanhar de Aquiles de todo projeto de analytics avançado.
5) Deployment
Ferramentas como Docker e o Kubernetes são muito utilizadas para realizar o deploy em conjunto com orquestradores, como o Airflow e Prefect.
O diferencial dessas tecnologias é fazer com que todas as “peças do Lego” conversem de forma harmônica entre si, garantindo que os dados fluam em sintonia ao longo da estrutura de dados.
Modern Data Stack para todas as pessoas
O Modern Data Stack (MDS) é a ligação entre dados brutos com a inteligência de negócios, ou seja, é um sistema integrado de aplicativos que coleta, combina, analisa e realiza o valor dos dados para empresas.
Inserir MDS é fundamental para empresas modernas que desejam obter sucesso na era dos dados.
Felizmente, os componentes do data stack estão muito mais baratos, simples de configurar e manusear.
Assim, empresas de todos os portes podem utilizá-lo para obter vantagem competitiva e desenvolver maturidade analítica.
Quer aprender mais sobre o Modern Data Stack?
Temos um e-book com tudo que você precisa saber sobre o assunto.
Entenda como otimizar a operação de dados da sua empresa. Acesse seu e-book aqui, é gratuito.
Daniel Avancini
Chief Data Officer
Isabela Blasi
CBDO and co-founder at Indicium