Como estruturar seus dados jurídicos

Conheça as ferramentas de Data Science que podem facilitar o seu trabalho na hora de organizar suas informações.

dados e gráficos translucidos sobre imagem de homem mexendo no celular

Já sabemos que gerar inteligência e tomar decisões a partir de dados é essencial para o sucesso. Mas para isso, é necessário ter as informações suficientes e elas precisam estar devidamente estruturadas. Por que? Muitas empresas ou escritórios ainda utilizam planilhas para armazenar seus dados. E muitas vezes, as informações completas sobre um determinado processo se encontram em 5 planilhas diferentes, que estão espalhadas por e-mails ou pastas. Esse cenário complica muito o processo de análise de dados para geração de inteligência. Além disso, está propenso a outros problemas como o erro humano e a falta de gestão de acesso.

Resumindo, ter os seus dados armazenados em planilhas não é uma prática muito inteligente.

É aí que entra o Data Lake. Podemos dizer que Data Lake é um repositório de dados na nuvem, onde você centraliza seus dados de diversas fontes em um único lugar, mantendo a integridade e a segurança. Você pode extrair qualquer informação do seu Data Lake de qualquer lugar, por meio de uma página web, e ainda combinar diversas planilhas, enriquecendo ainda mais a sua análise.

Existem várias plataformas que podemos usar para desenvolver um Data Lake. Aqui no Sem Processo, optamos pela plataforma do Google, chamada de Google Cloud Platform, pela facilidade de implementação e também pelo custo-benefício. Essa plataforma oferece serviços e features bem interessantes para a criação do Data Lake. Nós utilizamos dois desses serviços, o Cloud Storage e o BigQuery.

O Cloud Storage é o nosso Data Lake. Ele é um grande repositório de arquivos e objetos. Você pode armazenar nele qualquer planilha de qualquer tamanho, arquivos PDF sobre processos e até imagens. É muito fácil fazer o upload desses arquivos e você pode baixá-los quando quiser. Para organizá-los, você pode criar pastas, chamadas de buckets, e nomear da forma que desejar. Além disso, ele possui uma baixíssima latência, ou seja, você pode consumir os dados armazenados lá quase que instantaneamente. E ele possibilita a integração com vários sistemas. Por exemplo, se você utiliza um sistema de busca de dados externos sobre processos, pode integrar com o Cloud Storage para armazenar todos os dados retornados dessa busca de forma automática. Esse é apenas um pequeno exemplo da capacidade dessa ferramenta.

A segunda ferramenta que utilizamos é o BigQuery. Ele cumpre duas funções muito importantes: estruturar os dados do Data Lake e possibilitar a busca por meio de queries. Com o Data Lake implementado, você tem suas planilhas e arquivos salvos na nuvem com toda a segurança e integridade que o Google oferece. Mas como consultar esses dados de forma estruturada? O BigQuery estrutura suas planilhas em forma de tabelas e fornece a possibilidade de fazer queries em uma velocidade incrivelmente rápida. Ele possui uma linguagem própria de SQL com diversas funções estatísticas bem interessantes. Mas também é compatível com o SQL padrão. Com isso, você pode combinar os dados de diversas planilhas, calcular métricas, criar novos indicadores e até brincar de prever o futuro com o BigQuery ML. Essa feature possibilita a criação de modelos preditivos de forma simples e rápida, utilizando a linguagem própria de SQL do BigQuery.

Ter um Data Lake é o primeiro passo para começar a gerar inteligência e ter melhores métricas. Essa centralização e estruturação dos dados abre uma infinidade de portas quando falamos de ciência de dados. É somente a partir dessa estruturação que é possível fazer análises confiáveis e modelagens robustas.

brenno-costa
Brenno Costa
Especialista em Ciência de Dados. Head de Ciência de Dados no Sem Processo. Palestrante e redator.
Artigos recentes