Na seção anterior deste curso, você conheceu o Dataflow no Pub/Sub, a solução do Google Cloud para processar dados de streaming. Agora vamos nos concentrar no BigQuery. Primeiro, você vai conhecer os dois serviços principais do BigQuery: armazenamento e análise. Depois, vai conferir uma demonstração do BigQuery. Em seguida, você vai ver como o BigQuery ML fornece os dados para o ciclo de vida de IA em apenas um lugar. Além disso, você vai saber quais são as fases de projetos do BigQuery ML e os comandos principais. Por fim, você vai praticar com o BigQuery ML para criar um modelo personalizado de ML. Vamos começar. O BigQuery é um data warehouse totalmente gerenciado. Um data warehouse é uma grande memória, com terabytes e petabytes de dados reunidos de diversas origens em uma organização. Ele é usado para orientar decisões relacionadas à gestão. Ser “totalmente gerenciado” significa que o BigQuery cuida da infraestrutura subjacente. Assim, você pode focar no uso de consultas SQL para responder a dúvidas empresariais, sem pensar em implantação, escalonabilidade e segurança. Vamos ver alguns dos recursos principais do BigQuery. Com o BigQuery, você tem dois serviços em um: armazenamento e análise. É um lugar para armazenar petabytes de dados. Para referência, um petabyte equivale a 11 mil filmes com uma qualidade de 4K. O BigQuery também é um lugar para analisar dados, e conta com recursos integrados, como machine learning, análise geoespacial e Business Intelligence, que vamos abordar mais para frente. O BigQuery é uma solução totalmente gerenciada e sem servidor. Ou seja, você usa consultas SQL para responder às maiores dúvidas da organização em relação ao front-end, sem se preocupar com a infraestrutura no back-end. Se você nunca escreveu em SQL antes, não precisa se preocupar. Este curso oferece recursos e laboratórios para ajudar. O BigQuery tem um modelo flexível de pagamento por utilização, em que você paga pelo número de bytes de dados processados pela consulta, além do armazenamento permanente em tabelas. Se você preferir gastos mensais fixos, faça a inscrição de pagamento de taxas fixas e tenha uma quantidade reservada de recursos para usar. Os dados no BigQuery são criptografados em repouso por padrão, sendo que o cliente não precisa fazer nada. Criptografia em repouso significa a criptografia usada para proteger dados armazenados em um disco, incluindo unidades de estado sólido ou mídias de backup. No BigQuery, há recursos de machine learning integrados para que você escreva modelos de ML diretamente no BigQuery usando SQL. E se você decidir usar outras ferramentas profissionais, como a Vertex AI do Google Cloud, para treinar seus modelos de ML, vai conseguir exportar conjuntos de dados do BigQuery diretamente para a Vertex AI para ter uma integração otimizada do ciclo de vida de dados para IA. Como é uma arquitetura comum de solução de data warehouse do Google? Os dados de entrada podem ser dados em lote ou em tempo real. Se você pensar no último módulo do curso, vai lembrar que há quatro desafios de Big Data nas organizações modernas: os dados podem ter qualquer formato, que é a variedade, qualquer tamanho, que é o volume, qualquer velocidade, que é o nível de rapidez, e uma possível imprecisão, que é a veracidade. Se os dados forem de streaming, que podem ser estruturados ou não, e tiverem alta velocidade e grande volume, vai ser preciso usar o Pub/Sub para digerir esses elementos. Se forem dados em lote, vão poder ser enviados diretamente ao Cloud Storage. Depois, os dados dos dois pipelines são processados pelo Dataflow. O Dataflow é o local em que ocorre o ETL, ou seja, extração, transformação e carregamento dos dados quando necessário. O BigQuery, intermediário, vincula o processamento de dados usando o Dataflow e o acesso aos dados com ferramentas de análise, IA e ML. A função do mecanismo de análise do BigQuery no fim de um pipeline de dados é ingerir todos os dados processados depois do processo de ETL, armazenar e analisar os resultados e, talvez, gerar resultados para uso futuro, como visualização de dados e machine learning. Os resultados gerados pelo BigQuery se encaixam em dois buckets, em geral: ferramentas de Business Intelligence e ferramentas de IA e ML. Se você é um analista de negócios ou dados, é possível se conectar a ferramentas de visualização, como Looker, Data Studio, Tableau e outras ferramentas de BI. Se você prefere trabalhar com planilhas, é possível consultar conjuntos de dados grandes e pequenos do BigQuery diretamente no Planilhas Google, além de executar operações comuns, como tabelas dinâmicas. Se você for um cientista de dados ou um engenheiro de machine learning, outra opção é chamar os dados do BigQuery usando o AutoML ou o Workbench. Essas ferramentas de IA e ML fazem parte da Vertex AI, a plataforma unificada de ML do Google. É como se o BigQuery fosse uma área comum de preparação para cargas de trabalho de análise de dados. Quando seus dados estão nele, analistas de negócios, desenvolvedores de BI, cientistas de dados e engenheiros de machine learning podem receber acesso aos seus dados para conseguir insights.