Estruturando dados não-estruturados, transformando bytes em insights

Sabemos que todas as empresas geram uma grande quantidade de dados não estruturados (como documentos ou imagens, por exemplo) e que analisá-los pode ser um grande desafio. 

 Hoje discutiremos como a Neogrid utilizou técnicas de processamento de linguagem natural e aprendizagem de máquina para processar dados brutos coletados de cupons fiscais impressos, transformando bytes em informações estruturadas prontas para serem consumidas por relatórios de inteligência de mercado. 

 

Neogrid 

A Neogrid é uma empresa focada em soluções para a gestão automática da cadeia de suprimentos. Atuando desde a coleta de dados até a transformação dos mesmos em indicadores de negócio, a empresa sincroniza e automatiza indústrias, distribuidores, operadores logísticos, varejos, instituições financeiras e governo. 

 

A solução 

A Neogrid desenvolveu o SRI (do inglês, Small Retail Insights), uma solução que atua na coleta e na análise de dados das vendas de varejistas de pequeno e médio porte. O SRI possui como grande diferencial tecnológico a simplicidade na coleta informações a partir dos pontos de venda (PDV). Através de uma simples instalação de software, é possível mapear automaticamente as informações de todos os cupons fiscais gerados pelo PDV. 

 A tecnologia do SRI possibilita capturar informações de vendas em tempo real, mesmo que o pequeno varejista não tenha ferramentas tecnológicas para disponibilizar esses dados de forma estruturada. A instalação do software leva segundos e pode ser feita pelo próprio usuário por meio de um link de download, sem necessidade de manutenção posterior. Completamente transparente para o usuário, o software atualiza seu sistema operacional em segundo plano, automaticamente, sem gerar danos ao funcionamento do PDV e sem que o usuário do varejo perceba. 

 O desafio resultante desta captura ágil e simplificada surge quando evidenciamos que o PDV envia para a impressora fiscal apenas bytes contendo caracteres textuais ou imagens já prontas do cupom, no caso de impressoras térmicas.  

 Os textos e imagens coletadas pelo SRI precisam ser estruturados e, para isso, cada dado bruto é enviado para o Azure. A Neogrid escolheu utilizar as soluções de Inteligência Artificial da Microsoft no SRI devido à elevada assertividade da solução de OCR (Reconhecimento Óptico de Carácteres) e também pela flexibilidade e facilidade de desenvolvimento de modelos de processamento de linguagem natural no serviço de Aprendizagem de Máquina da Nuvem. 

 O primeiro passo para estruturar os dados brutos consiste em garantir que todas as imagens de cupons fiscais sejam convertidas em dados textuais. Utilizando o serviço cognitivo de reconhecimento de texto (Computer Vision API), o SRI garante a conversão destas informações visuais em texto. Com isso, todos os cupons, obtidos de quaisquer PDVs, passam a ser representados por uma sequência não estruturada de caracteres textuais. 

 O segundo passo, agora para transformar dados textuais em informação estruturada, consiste na utilização de modelos personalizados de reconhecimento de entidades nomeadas (do inglês, Named Entity Recognition) para estruturar as informações do texto processado. Informações como, por exemplo, o nome, quantidade e valor unitário de cada item do cupom fiscal, são extraídas automaticamente a partir dos modelos treinados. 

 Para garantir a assertividade do tratamento das informações coletadas, a Neogrid desenvolveu o TUIG (do inglês, Token Understanding for Invoice Generation). O TUIG é composto por uma série de modelos de aprendizagem de máquina, capazes de identificar cada uma das informações relevantes em uma série não estruturada de bytes contendo texto. A criação desses modelos é efetuada através de uma GUI para interagir com o TUIG, facilitando a anotação de entidades em textos tokenizados e criando uma interface interativa para o treino dos modelos. 

Frameworks Open Source de Aprendizagem de Máquina e de Processamento de Linguagem Natural foram utilizados no TUIG e modelos foram desenvolvidos em Python utilizando a plataforma Azure Databricks. Os modelos treinados no ambiente Databricks foram expostos na forma de APIs, utilizando tecnologias como o Serviço de Machine Learning do Azure, o banco de dados NoSQL CosmosDB e o AKS, o serviço de Kubernetes do Azure. As APIs expostas no AKS foram plugadas à GUI interna do TUIG (TUIG Operator Console) e também às pipelines de processamento contínuo dos dados coletados nos PDVs. 

or que Aprendizagem de Máquina? 

Abordagens de estruturação do texto sem o uso de aprendizagem de máquina também foram testadas durante o desenvolvimento do SRI como, por exemplo, na programação de parsers utilizando expressões regulares. Esse tipo de abordagem se provou pouco robusta à estruturação dos dados processados via OCR, devido à variabilidade do dado recebido. Além disso, expressões regulares acabam demandando maior manutenção que o treinamento de um modelo de aprendizagem de máquina no caso, layouts de impressão que possuam alguma variabilidade (análise de outliers). Utilizando aprendizagem de máquina, o TUIG foi capaz de ser mais robusto às variabilidades de layout de impressão encontradas no mundo real, por não utilizar uma abordagem determinística e sim uma lógica fuzzy. 

A Neogrid é líder no setor de gestão da cadeia de suprimento e possui um grande volume de dados à disposição para treinamento de algoritmos de Inteligência Artificial. Um grande acervo de dados de vendas foi utilizado para o desenvolvimento do TUIG. O resultado do treinamento do TUIG garantiu que o modelo de aprendizagem de máquina alcançasse uma assertividade superior quando comparado às outras abordagens determinísticas testadas.

Resultados de negócio 

Com o Azure, a Neogrid foi capaz de garantir a simplicidade e agilidade na coleta de informações de vendas dos pequenos varejistas. Adotando uma estratégia bastante robusta e eficiente para tratar dados nãoestruturados, os dados de vendas são minerados a partir de bytes coletados.  

Com essa tecnologia, fábricas e manufaturas dispõem rapidamente de insights sobre as vendas de seus produtos nas diferentes regiões do Brasil. Com os insights do SRI, manufaturas são capazes de reduzir custos, melhorar a produtividade e, principalmente, aumentar a qualidade da cadeia de suprimentos. 


Autor: Microsoft Tech