Blueprint

Como construir uma
plataforma de dados moderna

O Modern Data Stack (MDS) é a abordagem mais moderna quando se fala em plataforma de dados.

Mas as coisas não evoluíram do dia para a noite.‍Com a chegada das tecnologias de big data e computação em nuvem, os custos de processamento de dados reduziram muito.

Isso possibilitou o desenvolvimento de ferramentas de dados mais complexas para processar volumes de dados abundantes.

Algoritmos, modelos estatísticos e preditivos estão mais acessíveis e a inteligência de dados já é uma grande oportunidade de negócio.

Este e-book é para você conhecer tudo sobre a plataforma de dados moderna que adotamos aqui na Indicium para clientes, parceiros e internamente.

Você vai entender o que é Modern Data Stack (MDS), quais os princípios e as características.

E vai aprender a construir e implementar um data stack utilizando ferramentas de dados de ponta para revolucionar o gerenciamento de dados de uma empresa.


Aproveite!

Fonte de
diferenciação
competitiva  
Novas abordagens e
metodologias mais flexíveis


DESAFIOS DAS operações modernas de dados

1.

Nas próximas décadas, o volume, a velocidade e a variedade de dados vão tomar proporções astronômicas.

De acordo com o Internacional Data Corporation (IDC), a esfera global de dados vai crescer 500% até 2025. Os dados nunca foram tão fundamentais no meio empresarial como hoje.

As empresas estão se tornando mais ágeis para identificar sinais em seus dados, otimizando resultados. E as decisões são muito mais eficientes para responderem rapidamente os dilemas dos negócios.

Os comportamentos de clientes, estoque, produtos, mercado e muito mais dados já podem ser rastreados e analisados para fornecer informações com percepções críticas aos negócios em tempo real.

Mas nem tudo são flores...

Quanto mais dados são gerados, mais desafios surgem para a organização, integração e o gerenciamento deles. Para começar sua imersão na MDS, veja algumas necessidades básicas que precisam ser atendidas.

Armazenamento e computação em nuvem mais eficientes

Integração de arquiteturas de dados

Automatização de rotinas com inteligência artificial

E saiba que, para atender a essas necessidades, as soluções de gerenciamento de dados estão sob pressão para serem...

Rápidas, eficientes e capazes de comportar grandes volumes de informações

Flexíveis para incorporar diversas versões da verdade

Acessíveis para valorizar e simples para que a experiência seja bem-sucedida

Plataforma de dados moderna: transição na prática

As empresas crescem, e a complexidade de suas operações de dados, as metodologias e os sistemas, que uma vez funcionaram em pequena escala, tornam-se obsoletos e passam a causar atritos prejudiciais aos negócios.

Por isso, devem ser substituídos.

‍Para aumentar a maturidade analítica e ter vantagem competitiva no mercado, as organizações precisam transformar dados em ativos de negócio, gerando inovação, melhoria de processos e otimização de custos.

Para colocar tudo isso em prática, criamos o POD, nossa metodologia com base em três pilares fundamentais:

1 - Pessoas
‍2 - Organização
‍3 - Dados

Nesse contexto de transição, surge uma dúvida...

Como uma empresa pode preparar sua operação e infraestrutura de dados para lidar com tantos desafios?

A resposta é: implementando uma abordagem moderna de gerenciamento de dados, ou seja, o Modern Data Stack (MDS).

Essa é a solução mais inovadora da atualidade e que democratiza a coleta, a integração e o gerenciamento de dados para todas as partes interessadas.

RESUMINDO
Veja os 3 principais benefícios da abordagem moderna de dados
Governança

Equipes com autonomia,
mas com direcionamentos
e regras do time central.

Controle e aprovações
com o time centra
l.

Velocidade

Áreas com autonomia para dar velocidade nos desenvolvimentos.

‍Velocidade com qualidade: maior entendimento da demanda e impactonegócios.

Eficiência financeira (ROI)

Combinação de governança
com velocidade e qualidade,
permitindo retornos financeiros
maiores para as empresas.

Uma empresa precisa estar preparada para operações de dados cada vez mais complexas.
Isso significa ter uma plataforma de dados moderna como a que usamos na Indicium.

Você vai conhecê-la a seguir.

2.


O que é Modern Data Stack?‎‎‎‎ 

A plataforma de dados moderna que adotamos na é conhecida por vários nomes. Conheça alguns:

  • Modern Data Stack (MDS)
  • Modern Analytics Stack (MAS)
  • Data Stack
  • Analytics Stack

Apesar de nomenclaturas diferentes, todas são a mesma metodologia de dados que surgiu para resolver um problema central do mercado: desenvolver a capacidade analítica das empresas frente aos desafios do dia a dia.

Que desafios?

O avanço rápido de novas tecnologias, o aumento do volume de dados e a complexidade crescente dos negócios, por exemplo.

Como o Modern Data Stack soluciona isso?

Não existe mágica.
Para suportar o crescimento escalável das operações de dados modernas, com essa abordagem,
nós criamos infraestruturas de dados flexíveis, adaptáveis e acessíveis com a combinação destes 3 fatores:

Boas práticas
de data science

Ferramentas analíticas específicas

Tecnologias inovadoras

A abordagem moderna de dados não é uma tecnologia que funcione isoladamente.
Ela reúne outras tecnologias para poder solucionar os desafios de data science, analytics e inteligência artificial das empresas modernas.

Na prática...

A empresa que tem uma plataforma de dados baseada em Modern Data Stack utiliza ferramentas e tecnologias independentes, mas que são complementares e executam funções específicas ao longo do ciclo de dados.

Por exemplo, considere uma empresa que aumentou drasticamente o seu estoque e a sua base de clientes e, por isso, precisa de uma solução de armazenamento de dados mais robusta.

‍Nesse caso, graças a data stack, ela pode adequar a sua solução atual ou substituí-la por uma que atenda às novas demandas dos seus negócios.

E, o melhor: sem precisar reformular toda a sua infraestrutura de dados por completo.

‍Com o MDS, assim como em um jogo de Lego, as organizações têm a flexibilidade e a autonomia para substituírem peças e fazerem ajustes pontuais, sem necessariamente destruírem toda a sua estrutura de dados.

3.


Os princípios da abordagem moderna de dados

Para construir uma abordagem de dados moderna e eficiente, é preciso conhecer a fundo suas principais características e seus princípios norteadores.

Cloud based

Armazenamento de dados totalmente centralizado em nuvem, com tecnologia escalável e flexível que permite o processamento de uma quantidade infinita de dados em um ambiente online e seguro, reduzindo custos com infraestrutura, instalação e manutenção.

1

Modularidade

Separação das regras de negócios das etapas do processo de ELT, nas fases de extração e carregamento particularmente, permitindo o uso de ferramenta de terceiros (third-party tools) para dar seguimento ao processo de integração de dados com baixo investimento.

2

Simplicidade

Transformação de dados orientada por uma ou poucas linguagens de programação de amplo conhecimento, feita de maneira centralizada, trazendo benefícios, como a democratização da informação e a redução de custos com treinamento e manutenção.

3

Governança

Informações centralizadas e facilmente acessíveis, simplificando a documentação e governança de dados, permitindo a criação de lógicas de permissionamento e o gerenciamento de dados sensíveis de forma integrada.

4

Versionamento

Utilização de boas práticas de versionamento, permitindo o trabalho colaborativo em projetos de dados, sem geração de conflitos graças às ferramentas modernas de utilizadas nessa abordagem.

5

Separação de ambientes

Criação de ambientes distintos para separação de dados brutos, dados em transformação e dados finais, facilitando o acesso a diferentes ambientes de desenvolvimento, o trabalho colaborativo e a redução de erros de produção.

6

Testes

Execução de boas práticas de testes nos projetos de dados, como ocorre em projetos modernos de software, garantindo a consistência e a confiabilidade dos resultados.

7

Agora que você conhece esses princípios fundamentais da abordagem de dados moderna, vamos falar sobre como construir isso na sua empresa.

Para ter resultados mais eficientes, os times de dados precisam estar estruturados e integrados para adotarem o MDS.

Para estruturar o time, as empresas investem em treinamento de dados, construindo nesse processo
uma cultura de dados sólida e data-driven

4


Construindo a abordagem de dados moderna

Graças às novas tecnologias e ferramentas acessíveis, empresas de todos os portes podem adotar uma abordagem moderna de dados hoje em dia.

Mas é necessário entender como todas as peças se encaixam para ter sucesso na implementação dessas práticas, desde as etapas do data stack até a definição das tecnologias e ferramentas para sua execução.

Uma das características mais marcantes da abordagem moderna de dados é a junção de diversas ferramentas e tecnologias em um data stack.

Você sabe o que é data stack?

A pilha de dados ou data stack é uma coleção de processos, ferramentas, aplicações e tecnologias responsável pela automatização do gerenciamento de dados nos negócios em todo o pipeline de dados.

Você sabe o que é pipeline de dados?

Traduzindo pipeline temos: gasoduto ou tubulação em português.

Em nossa área de dados, pipelines são todas as etapas do processamento de dados, desde o sistema de entrada até o destino final da informação, ou seja, é o complexo todo desse processo.

Na prática...

O primeiro passo na implementação do MDS é a estruturação. Depois, vem a configuração do data stack.

Com isso, é possível responder demandas das operações de dados de forma altamente eficiente.

Para sua empresa ter um data stack eficiente, há cinco estágios específicos ao longo do pipeline de dados. E as principais tarefas e ferramentas do Modern Data Stack estão resumidas no diagrama a seguir em suas respectivas etapas.

Data Stack: cinco estágios da pilha de dados

1
2

Armazenamento e gerenciamento de dados

Agora, os dados são preparados e armazenados em e data warehouses, estruturas escaláveis e seguras que possibilitam análises e o gerenciamento de informações em larga escala, e que são fundamentais no data stack.

3

Transformação de dados

Aqui, por conta do volume massivo de dados para processamento, ao invés do tradicional ETL (extrair, transformar e carregar), no Modern Data Stack, utilizamos o fluxo de ELT, uma abordagem mais rápida e flexível para a transformação de dados que ocorre logo após a coleta e integração das informações em um repositório centralizado, e não mais antes, como no ETL.

‍Com isso, é possível transformar dados brutos em dados modelados dentro de um data warehouse.

4

Business intelligence e data analytics

A inteligência analítica é a prioridade final do Modern Data Stack. Depois da configuração das etapas anteriores, as informações e os insights que agregam valor à tomada de decisão empresarial finalmente se tornam acessíveis em tempo real.

‍Como resultado, gestores e departamentos de negócios podem visualizar dados, identificar tendências, otimizar processos e agir rapidamente com auxílio de ferramentas de , dashboards interativos e relatórios automatizados, conectados a um data warehouse.

5

Advanced analytics

No último e mais avançado estágio do MDS, é possível aplicar e desenvolver técnicas avançadas de machine learning, inteligência artificial e modelagem preditiva altamente complexas, como modelos de recomendação e modelagem prescritiva, dentro da infraestrutura moderna de dados configurada nos estágios anteriores.

Coleta, integração e limpeza de dados

Empresas têm seu próprio processo para coleta de dados relevantes. Nesta etapa do data stack, pode-se coletar e integrar dados de múltiplas fontes, como: CRMs, planilhas de Excel, mídias sociais etc., centralizando-os em um de forma eficiente.

É nesse momento, com auxílio das ferramentas corretas, que são feitos os ajustes necessários para que os dados estejam preparados para a etapa seguinte.

Na prática...

Todo data stack construída com base nas operações básicas descritas preenche os requisitos necessários para suportar o crescimento escalável das operações de dados modernas.

Dessa forma, ainda que a arquitetura de um pipeline de dados varie de acordo com as empresas, todas devem ter esses processos incorporados.

‍E esses conceitos abordados até aqui são fundamentais para as próximas explicações sobre as ferramentas e tecnologias recomendadas para a implementação Modern Data Stack nos seus negócios.

Data stack: PRINCIPAIS ferramentas da abordagem de dados moderna

5.

Uma das características mais marcantes do Modern Data Stack é a junção de diversas ferramentas de dados e tecnologias para responder demandas das operações de dados atuais.

Além dos estágios do fluxo de dados, as ferramentas usadas em cada uma das etapas do pipeline são elementos essenciais que determinam o sucesso ou não da implementação do MDS.

Portanto, uma operação de dados moderna requer a combinação de diversos serviços e ferramentas em um data stack.

Confira a seguir a análise da Indicium sobre as principais ferramentas disponíveis no mercado para a construção de uma abordagem de dados moderna, escalável e flexível.

Ferramentas de coleta, deployment
e transformação de dados

Coleta e integração de dados

Fivetran, Stitchdata, AWS Glue e Google Cloud Dataflow são ferramentas líderes em coleta e ingestão de dados. Elas permitem a transferência de dados de centenas de fontes, como ERPs, CRMs, bancos de dados, APIs REST e mais, diretamente para um data warehouse (seja na nuvem ou local). Além disso, essas ferramentas podem ser combinadas, eliminando a necessidade de investimentos significativos em licenças de software ou horas de implementação.

Deployment

Docker e Kubernetes são ferramentas amplamente utilizadas para implantação, juntamente com orquestradores como o Airflow e ferramentas de gerenciamento de infraestrutura como o Terraform. Essas ferramentas garantem que todas as “peças de Lego” se comuniquem harmoniosamente entre si, permitindo que os dados fluam em sincronia por toda a estrutura de dados.

Transformação de dados

dbt (data build tool), Dataform, Spark, Matillion e Coalesce estão entre as principais ferramentas do Modern Data Stack para a transformação de dados. Juntas, elas possibilitam a execução do processo ELT para transformar dados brutos em dados modelados dentro de um data warehouse, o que é um passo fundamental na abordagem moderna de dados.

Ferramentas de armazenamento e gerenciamento de dados

Hoje, temos duas opções práticas, viáveis e eficientes quanto ao armazenamento de dados, tanto on premises quanto em nuvem: data warehouse e data lake. Ambas devem ser avaliadas caso a caso, pois apresentam diferenças técnicas e conceituais em termos de arquitetura e finalidade.

Data warehouse

Amazon Redshift, Snowflake, Google BigQuery, Databricks e PostgreSQL estão entre as principais ferramentas para data warehousing. Elas possuem arquiteturas escaláveis em nuvem que permitem o armazenamento e consulta rápida de volumes massivos de dados. Essas ferramentas são essenciais para construir uma abordagem moderna de dados devido à sua eficiência e escalabilidade.

Data lake

Dremio, Amazon S3, Apache Hadoop, Google Cloud Storage e Azure Data Lake são data lakes altamente recomendados. Essas plataformas podem armazenar todos os tipos de dados—estruturados, não estruturados e híbridos—em um único lugar, tornando-as essenciais para uma abordagem moderna de dados.

Computação em nuvem

AWS, Google Cloud e Microsoft Azure são hoje os principais provedores de computação em nuvem. É possível escolher entre essas opções de acordo com a necessidade da sua empresa para o armazenamento e gerenciamento dos seus dados.

Ferramentas de data analytics

A análise de dados moderna envolve diversas atividades que variam em termos de complexidade e ferramentas.
Para facilitar a sua compreensão, é possível dividi-las em duas categorias:

(1) ferramentas de Business Intelligence e (2) Advanced analytics e IA Generativa.

Business Intelligence

Metabase se destaca entre várias alternativas robustas de código aberto, enquanto Microsoft Power BI, Looker e Tableau se destacam como plataformas SaaS (Software como Serviço). Com uma infraestrutura de dados moderna em vigor, essas ferramentas de business intelligence podem ser utilizadas para visualizar, analisar e gerar insights a partir dos dados, aprimorando a tomada de decisões e o planejamento estratégico.

Advanced analytics

MLflow e Kedro ajudam na execução de modelos preditivos e prescritivos, otimizando o processo de desenvolvimento e reduzindo o tempo entre a modelagem e a implantação. Ferramentas como Apache Spark, TensorFlow e PyTorch também desempenham papéis cruciais em análises avançadas. Machine learning, inteligência artificial e modelagem de dados são técnicas aplicadas em análises avançadas para análises mais complexas dentro do data stack, utilizando essas ferramentas junto com várias bibliotecas nas linguagens R e Python.

Generative AI

OpenAI, H2O.ai, Gemini e Amazon Bedrock são plataformas líderes no campo da IA generativa. Essas ferramentas ajudam na criação de modelos sofisticados capazes de gerar texto, imagens e outros tipos de dados, melhorando significativamente o processo de desenvolvimento e reduzindo o tempo entre o conceito e a implantação. A IA generativa aproveita técnicas avançadas de machine learning para produzir novos conteúdos, oferecendo soluções poderosas para análises de dados complexas e aplicações inovadoras dentro do data stack.

Cases da abordagem de dados MODERNA

6.

A revolução digital tem feito com que organizações de todos os tamanhos estejam em busca de inovação.

Nesse sentido, o Modern Data Stack não é mais uma opção, mas uma necessidade para uma empresa ser competitiva.

É aqui que a Indicium entra: transformando não apenas a forma como os dados são gerenciados, mas como as decisões de negócios são tomadas de forma data-driven.

Empresas com metodologias modernas de dados

Estas empresas são referência em uso da metodologia moderna de dados:
Estas empresas usam a metodologia de dados moderna implementada pela Indicium:

Cada caso é uma história de sucesso única que destaca as especificidades da aplicação prática de tecnologias avançadas em cenários reais.

Com a parceria da Indicium, empresas de diversos setores foram capazes de:

+ acelerar a tomada de decisão com acesso instantâneo a insights acionáveis.

+ melhorar a eficiência operacional através da automação e otimização de processos.

+ potencializar o crescimento ao identificar novas oportunidades de mercado.

+ fomentar uma cultura orientada por dados, em que cada decisão é embasada em análises precisas.

Trabalhamos firmes no propósito de fazer a diferença em vários segmentos da indústria usando o Modern Data Stack.

A seguir, saiba mais sobre a aplicabilidade do MDS por setor.

7.


Conclusão                                                                         

São muitas as decisões envolvidas do desenvolvimento ao aprimoramento de uma operação de dados em uma empresa.

Informações atualizadas podem ser difíceis de encontrar e ainda mais difíceis de entender.

O Modern Data Stack (MDS) soluciona esse problema criando uma metodologia integrada de inteligência de negócios que coleta, combina, analisa e entrega o valor dos dados.

Felizmente, os componentes do data stack estão muito mais baratos, simples de configurar e manusear.

Assim, empresas de todos os portes podem obter vantagem competitiva e desenvolver maturidade analítica.

Podemos ajudar você a entender suas necessidades atuais de gerenciamento de dados, avaliar as suas opções e indicar como dar os próximos passos.

A Indicium é uma empresa global de serviços de dados com sede na cidade de Nova York, com mais de sete anos de experiência colaborando com clientes de destaque, como PepsiCo, Burger King, Bayer, Kenvue e Novo Nordisk.

Nós nos especializamos no Modern Data Stack, apoiados por um robusto centro de entrega nas Américas. Nosso time é certificado nas principais ferramentas modernas e treinado internamente para entregar um trabalho padronizado e de alta qualidade.

+6 ANOS

de experiência com MDS

+120

plataformas de MDS

+200

modelos de IA/ML

+500

produtos de dados

+600

consultorias de dados realizadas

+2.000

certificados profissionais emitidos

R$ +1BI

em ROI para clientes

+150%

em ROI por projeto

+10.000

horas de treinamento realizadas

Pela nossa jornada, pensamos que cada dado tem uma história para contar.

E a Indicium transforma cada história dessa em estratégias de negócios lucrativas e sustentáveis.

Se você deseja desbloquear o potencial dos seus dados com o Modern Data Stack, estamos aqui para tornar isso realidade.

A Indicium é movida por dados e especializada em
criar soluções de ciência de dados, analytics e IA

Somos uma empresa de dados premiada no mundo inteiro pelas nossas soluções avançadas.

Selo dbt platinum
Selo snowflake partner
Selo Negócios em Expansão Exame
Selo Great Place To Work
Selo Innoway Acate
Selo top big data analytics company
Selo Top B2B Services Clutch

Abra caminho para que sua organização lidere o mercado por décadas. Entre em contato.

Clique no botão, preencha o formulário e nossa equipe vai entrar em contato com você em breve.

Queremos ajudar colaborando em suas iniciativas de dados.