Na Era Digital, velocidade é essencial – sua arquitetura atual de Big Data consegue manter o ritmo?

Atualmente, as soluções legadas de Data Warehouse estão literalmente “engasgando” com os altos volumes de dados que devem tratar e em uma pesquisa realizada pela equipe do Vertica Unified Analytics Warehouse este fato ficou bem evidente!

  • 66% dos entrevistados afirmaram que suas soluções atuais não são capazes de analisar grandes volumes de dados;
  • 65% disseram que suas queries são muito lentas ou que não são completadas – terminam por Time-out;
  • 43% disseram que sua solução de Data Warehouse atual atingiu o limite de desempenho.

Ao mesmo tempo, a demanda por análises mais rápidas e melhores – para extrair insights relevantes de uma “montanha” de dados – continua a crescer. Uma plataforma de Big Data Analytics avançada e implementada da forma correta pode criar oportunidades únicas para aumentar competitividade e resultados nos negócios, mas a grande questão é: como fazer a transição para uma nova arquitetura de Analytics que atenda aos requisitos atuais e futuros, dentro do orçamento, no prazo estipulado e que minimize o impacto nos processos e pessoas?

Este artigo resume os seis principais recursos que uma plataforma de Big Data Analytics deve oferecer e traz uma nova perspectiva para este tema: as principais considerações para uma plataforma de Big Data Analytics não giram apenas em torno dos conceitos “Big”, “Data” e “Analytics”. Na Era Digital, o princípio orientador é velocidade! Uma plataforma de Big Data Analytics deve acelerar a capacidade de TI de fornecer insights que impulsionem melhorias de processos e melhorem os resultados dos negócios. Simplificando, o futuro pertence ao que é rápido e o Big Data Analytics deve ajudar os negócios a se moverem com mais rapidez e inteligência!

Principais requisitos para uma plataforma de Big Data Analytics

Claramente, a plataforma Big Data Analytics selecionada deve fornecer uma gama muito ampla de requisitos. Seguem os seis principais a serem considerados:

#1: Tem que ser extremamente rápido

Dada a necessidade crucial de velocidade na Era Digital, o que isso significa em termos de uma plataforma de Big Data Analytics? Em termos bem simples: os usuários não querem esperar pelos resultados quando executam uma consulta, querem respostas instantâneas e sem impacto em outros processos! Isso significa que a plataforma de Big Data Analytics deve melhorar o desempenho dos aplicativos existentes, permitir desenvolver novas análises e fornecer uma estratégia de crescimento lógica, previsível e acessível. De uma perspectiva técnica, atender a essas expectativas requer uma combinação de uma arquitetura de banco de dados colunar com a tecnologia de Massively Parallel Processing (MPP). Por quê? O design colunar minimiza a contenção de I/O, que é a principal causa de latência nas queries, além de oferecer uma taxa de compressão de dados extremamente alta. E mais, Data Warehouses com tecnologia MPP normalmente são dimensionados de forma linear, o que significa que ao se duplicar a área de um Data Warehouse com tecnologia MPP (+ nodes), o desempenho será efetivamente duplicado.

#2: Tem que processar grandes volumes de dados

É claro que alta velocidade no processamento tem seus limites, principalmente se a plataforma adotada não for escalável para armazenar e gerenciar grandes volumes de dados. Hoje a escala pode ser gigabytes ou terabytes, mas em breve pode ser petabytes! A tecnologia MPP é ideal para aumentar a capacidade de processamento – baseada em clusters, permite aumentar tanto a capacidade de armazenamento como de processamento. Além disso, com a tecnologia MPP o processamento é acelerado pois os dados são otimizados antes da análise, o que reduz a quantidade de pesquisas necessárias para responder a uma Query.

#3: Deve integrar as ferramentas legadas

Se a análise depender de ferramentas de ETL ou de visualização baseadas em SQL, certifique-se que a plataforma tenha integração com as principais ferramentas de mercado e não apenas com a ferramenta do fabricante da plataforma de Big Data. Além disso, certifique-se que todas as ferramentas e tecnologias adicionais estejam em conformidade com a versão mais recente (SQL 2011) do padrão ANSI SQL.

#4: Deve aproveitar as vantagens e agregar valor ao Hadoop

O Hadoop tornou-se um grande player no mercado de Big Data. Muitos profissionais de banco de dados avaliaram o Hadoop como uma alternativa viável para as limitações das plataformas legadas de Data Warehouse. Mas, o desempenho do Hadoop – especialmente em Queries Ad-hoc e em análises SQL – é bastante deficiente quando comparado à uma plataforma de Big Data Analytics baseada em MPP. Além disso, para desenvolver uma arquitetura de armazenamento de dados no Hadoop é necessário desenvolver novas habilidades, obter novos    softwares e, em muitos casos, contratar novos profissionais.  Por outro lado, como um típico Data Lake, o Hadoop oferece algumas vantagens bem distintas, tais como:

  • Economia de custos para armazenar dados;
  • Armazenar dados “Quentes” ou “Frios” – uma forma de baixo custo para manter dados usados diariamente, mas que não são quentes;
  • Oferece recursos de descoberta de dados – ajudando a entender se os dados têm valor comercial;
  • Através de ferramentas ETL pode agregar ou mesclar dados à medida que estes chegam;
  • E como já sabemos, pode-se armazenar e processar dados estruturados, semiestruturados e/ou multi-estruturados, o que simplesmente não é o possível em um banco de dados relacional.

Em resumo, o que é necessário é o melhor dos dois mundos, ou seja: uma maneira de aproveitar todas as vantagens do Hadoop sem incorrer nas penalidades de desempenho e possíveis interrupções. Portanto, adote uma plataforma de Big Data Analytics que aproveite as vantagens oferecidas pelo Hadoop e que acelere Workload e a performance dos Data Warehouse tradicionais.

#5: Deve apoiar os Data Scientists

Os Data Scientists estão adquirindo maior influência e importância dentro das organizações e a plataforma de Big Data Analytics deve apoiá-los em dois pontos principais. Primeiro – estes profissionais utilizam ferramentas como Java, Python e R para executar análises preditivas, assim, a plataforma principal de Big Data deve não só auxiliar, mas também acelerar a criação de análises preditivas inovadoras. Em segundo lugar – a plataforma deve ajudar a conectar o trabalho do Data Scientist aos objetivos de negócios. Hoje, o papel do Data Scientist é muitas vezes comparado ao papel de um estatístico, uma atividade relativamente acadêmica e sem ligação com os objetivos de negócios. Em alguns casos, o resultado do trabalho dos Data Scientists podem ser incompletos, imprecisos ou não relacionados aos resultados de negócios. Uma plataforma de Big Data Analytics que é rápida, eficiente, fácil de usar e amplamente implementada pode ajudar a fechar essa lacuna entre os profissionais técnicos e área de negócios.

#6: Deve ter recursos avançados de Analytics

Dependendo do caso de uso é fundamental analisar a “profundidade” das funções analíticas SQL incorporadas à uma plataforma de Big Data Analytics, ou seja, examinar detalhadamente os “bastidores” para conhecer exatamente quais análises SQL estão disponíveis. Por exemplo, se for preciso realizar análises em dados de dispositivos (IoT), funções analíticas como “Time Series Analysis” e “Gap Analytics” são fundamentais – sem estas funções, pode-se perder um tempo precioso modificando dados ou escrevendo código. Além disso, a capacidade de realizar análises preditivas está se tornando cada vez mais importante, portanto, certifique-se de que plataforma de Big Data Analytics não só permita preparar e carregar dados muito rapidamente, mas também, criar modelos preditivos com algoritmos avançados de Machine Learning do próprio banco de dados e implementar facilmente esses modelos em grandes conjuntos de dados.

Vertica: Uma plataforma de Big Data Analytics singular e eficaz

O Vertica Unified Analytics Warehouse é singularmente capaz de atender a todos os seis critérios-chave resumidos neste artigo. Oferece velocidade, escalabilidade, simplicidade e flexibilidade para atender à maioria dos requisitos de Big Data Analytics atuais. Projetado para fornecer desempenho extremamente alto (Queries executadas 50 vezes mais rápido ou mais), escala de petabyte (armazena de 10 a 30 vezes mais dados por servidor) e a capacidade de usar ferramentas de inteligência de negócios BI/ETL, incluindo Hadoop, com custo muito mais baixo do que as soluções tradicionais de Data Warehouse.  Igualmente importante, o Vertica é uma verdadeira plataforma de Big Data Analytics – inclui uma ampla gama de recursos como: console de gerenciamento para monitorar o desempenho dos clusters Vertica, dos nodes, network status e gráficos de monitoramento detalhados. Em termos de backup, pode-se usar um backup completo para Disaster Recovery e restaurar um banco de dados danificado, bem como, restaurar objetos individuais. Esses e outros recursos estão incluídos no Vertica Unified Analytics Warehouse e que, muito provavelmente, deverão ser improvisados em uma solução menos madura.

O Machine Learning do Vertica suporta todo o processo de análise preditiva, com Massively Parallel Processing (MPP) e interface SQL padrão, permitindo que os Data Scientists e Analistas de Dados aproveitem o poder do Big Data e acelerem os resultados de negócios sem limites e sem concessões.

O Vertica também complementa e agrega muito valor ao Hadoop – oferecendo um mecanismo de análise viável economicamente e escalável para atender análises tradicionais e avançadas, bem como, uma plataforma de gerenciamento de dados extensível que pode tirar o máximo do que está sendo feito ou planejando no Hadoop. Isso inclui  o Vertica para SQL no Hadoop,  bem como tabelas externas, que permitem aos usuários consultar diretamente dados em formatos Parquet ou ORC armazenados em HDFS ou AWS S3.

Dê uma olhada mais de perto no Vertica!

Veja você mesmo como a Vertica oferece análises extremamente rápidas – On-Premises, em Cloud ou no Hadoop! Que conhecer mais sobre o Vertica Unified Analytics Warehouse? Consulte: https://www.vertica.com/

Related Pages:

Vertica Unified Analytics Warehouse

Vertica Python

Vertica Trend Predictive Analytics