Apresentando o MASS – Um método de pré-treinamento que supera o BERT e o GPT em tarefas de geração de linguagem sequência para sequência

Nota do Editor: Desde 2018, o pré-treinamento tornou-se, sem dúvida, um dos tópicos mais pesquisados no Processamento de Linguagem Natural (PLN). Alavancado pelos modelos de linguagem generalizados como BERT, GPT e XLNet, grandes avanços foram alcançados na compreensão da linguagem natural. No entanto, em tarefas de geração de linguagem baseadas na sequência para sequência, os métodos de pré-treinamento não alcançaram melhorias significativas. Agora, os pesquisadores da Microsoft Research Asia apresentaram o MASS, um novo método de pré-treinamento que alcança melhores resultados que o BERT e o GPT.

 

O BERT e o XLNet alcançaram grande sucesso em tarefas de compreensão de linguagem natural (por exemplo, classificação de sentimento, inferência de linguagem natural e compreensão de leitura de máquina SQuAD). No entanto, além de tarefas de compreensão de linguagem natural em PNL, existem outras tarefas de geração de linguagem baseadas em sequência para sequência, tais como tradução de máquina neural, resumo, geração de respostas de conversação, resposta para perguntas e transferência de estilo de texto. Para estas tarefas, o codificador-atenção-decodificador é a abordagem dominante.

Figura 1: Estrutura Codificador-Atenção-Decodificador.

Como mostra a Figura 1, o codificador tem a sequência fonte X como entrada e a transforma em uma sequência de representações ocultas e, em seguida, o decodificador extrai as representações ocultas do codificador através de um mecanismo de atenção e gera uma sequência-alvo Y autorregressivamente.

BERT e XLnet pré-processa um codificador para compreensão da linguagem natural, enquanto o GPT pré-processa um decodificador para modelagem da linguagem. Normalmente temos que pré-processar o codificador e o decodificador separadamente ao usar o BERT e o GPT para tarefas de geração de linguagem baseada a sequência para sequência. Em tais circunstâncias, a estrutura codificador-atenção-decodificador e o mecanismo de atenção não podem ser processados juntos. No entanto, o mecanismo de atenção é extremamente importante nestes tipos de tarefas e impede o BERT e o GPT de alcançar o desempenho ideal.

Um novo método de pré-treinamento

Tendo as tarefas de geração de linguagem baseadas na sequência para sequência em mente, o Machine Learning Group da Microsoft Research Asia vislumbrou um novo método de pré-treinamento. Ele é chamado de Mass: Pré-Treinamento sequência para sequência mascarada. O MASS mascara aleatoriamente um fragmento da sentença com comprimento k e prevê esse fragmento mascarado por meio de uma estrutura do decodificador-atenção-codificador.

Figura 2: Estrutura do MASS.

Como mostra a Figura 2, o 3º e o 6º tokens da sentença do lado do codificador são mascarados, enquanto do lado do decodificador, apenas os tokens mascarados são previstos e os outros tokens são mascarados.

O pré-treinamento MASS traz as seguintes vantagens:

  • Os outros tokens do lado do decodificador (os tokens que não estão mascarados do lado do codificador) são mascarados, o que pode encorajar o decodificador a extrair mais informações para ajudar na previsão do fragmento da sentença. Como resultado, o codificador-atenção-decodificador é forçado a ser pré-processado em conjunto;
  • A fim de fornecer informações mais úteis para o decodificador, o codificador é forçado a extrair o significado dos tokens sem máscaras do lado do codificador, o que pode melhorar a capacidade do codificador no entendimento da linguagem;
  • O decodificador é projetado para prever tokens consecutivos (fragmentos de sentenças), o que pode melhorar a capacidade de modelagem do idioma do decodificador.

Estrutura geral do pré-treinamento

O MASS possui um importante hiper parâmetro k (o comprimento do fragmento mascarado). Ajustando o k, o MASS pode incorporar a modelagem da linguagem mascarada de BERT e a modelagem da linguagem padrão em GPT, que se estende ao MASS em um quadro geral de pré-treinamento.

Quando k=1, de acordo com a concepção de MASS, um token do lado do codificador é mascarado, e o lado do decodificador prevê este token mascarado, como mostra a Figura 3. O lado do decodificador não tem informação de entrada e o MASS é equivalente ao modelo de linguagem mascarada no BERT.

Figura 3: k=1. Um token do lado do codificador é mascarado; o lado do decodificador prevê o token mascarado.

Quando k=m (m é o comprimento da sequência), no MASS todos os tokens do lado do codificador são mascarados, e o lado do decodificador prevê todos os tokens, conforme mostra a Figura 4. O lado do decodificador não pode extrair qualquer informação do lado do codificador e o MASS é equivalente ao modelo de linguagem padrão em GPT.

Figura 4: k=m. Todas os tokens do lado do codificador são mascarados; o lado do decodificador prevê todos os tokens, assim como no GPT.

As formulações de probabilidade do MASS sob diferentes valores de k são mostradas na Tabela 1, onde m é o comprimento da sequência, u e v são as posições inicial e final do fragmento mascarado respectivamente, Χu:v  representa o fragmento da posição u para v e X\u:v  representa a sequência em que os tokens da posição u para v são mascarados. Pode-se observar que quando k = 1 ou m, a formulação de probabilidade do MASS é equivalente ao modelo de linguagem mascarada em BERT e o modelo de linguagem padrão em GPT.

Tabela 1: Formulações de probabilidade de MASS com diferentes valores de k.

Realizamos experimentos para analisar o desempenho do MASS com diferentes valores de k, conforme mostra a Figura 5.

Figura 5: Desempenho do MASS com K com comprimentos mascarados, tanto em estágios de pré-treinamento como de ajuste, incluindo PPL de modelo pré-processado em sentenças em inglês (a) e sentenças em francês (b) de WMT newstest2013 em tradução inglês-francês; a pontuação BLEU da tradução inglês-francês não supervisionada no WMT newstest2013 (c); o escore ROUGE (pontuação F1 no RG-2) no conjunto de validação do resumo do texto (d); e o PPL no conjunto de validação de geração de respostas de conversação (e).

Quando k é igual a metade do tamanho da sentença, as tarefas posteriores podem alcançar seu melhor desempenho. Mascarar metade da sentença pode proporcionar um bom equilíbrio no pré-treinamento do codificador e do decodificador. A propensão do codificador (k=1, BERT), por outro lado, a propensão do decodificador (k=m, LM/GPT) não oferece um bom desempenho. Isso mostra as vantagens do MASS nas tarefas de geração de linguagem baseada na sequência para sequência.

Experimentando as tarefas de geração de linguagem baseada na sequência para sequência.

Pré-treinamento

Notavelmente, o MASS requer apenas dados monolíngues não supervisionados para o pré-treinamento (por exemplo, Dados WMT News Crawl ou Dados Wikipédia). O MASS suporta tanto tarefas interlínguas (por exemplo, tradução por máquina neural) quanto tarefas monolíngues (resumo e geração de respostas para conversas). Ao pré-processar tarefas interlínguas como tradução inglês-francês, pré-processamos o inglês-inglês e o francês-francês em um modelo, com incorporação de um idioma adicional para diferenciar entre as línguas. Aperfeiçoamos o MASS em sua tradução automática não supervisionada, tradução automática de baixo recurso, resumo e geração de respostas de conversação para verificar sua eficácia.

Tradução automática não supervisionada

Comparamos o MASS com métodos anteriores, incluindo o método mais avançado, o Facebook XLM, em tarefas de tradução automática não supervisionada. O XLM usa um modelo de linguagem mascarado BERT e um modelo de linguagem padrão para pré-processar o codificador e o decodificador separadamente. Conforme mostra a Tabela 2, o MASS supera o XLM em seis direções de tradução em WMT14 inglês-francês, WMT16 inglês -alemão e inglês-romeno e alcança resultados superiores.

Tabela 2: BLEU comparação da pontuação entre MASS e o trabalho anterior em NMT não supervisionado. Resultados dos pares en-fr e fr-en relatados no newstest2014; outros estão no newstest2016. Como o XLM utiliza diferentes combinações de MLM e CLM no codificador e no decodificador, relatamos a mais alta pontuação do BLEU para XLM em cada par de idiomas.

Tradução automática com poucos recursos

A tradução automática com poucos recursos refere-se à tradução automática com dados de processamento bilíngue limitados. Simulamos um cenário de pouco recurso na tradução do WMT14 inglês-francês, WMT16 inglês-alemão e inglês-romeno (dados bilíngues de 10K, 100K e 1M respectivamente).

Figura 6: Comparação da pontuação BLEU entre o MASS e a linha de base com poucos recursos em diferentes escalas de dados pareados.

A Figura 6 mostra que o MASS supera a linha do pouco recurso em diferentes escalas de dados e a melhora torna-se maior com menos dados bilíngues.

Resumo

Comparamos o MASS com o BERT+LM (com codificador pré-processado com BERT e decodificador pré-processado com LM) e DAE (Auto Decodificador Denoising ) no Gigaword Corpus. Como pode ser visto na Tabela 3, o MASS superou o BERT+LM e o DAE.

Tabela 3: Comparações entre o MASS e dois métodos de pré-treinamento para a pontuação Rogue na tarefa de resumo do texto em todo 3,8M de dados de processamento.

Geração de resposta de conversação

Comparamos o MASS com o BERT+LM no Cornell Movie Dialog Corpus. A Tabela 4 mostra que o MASS alcançou um PPL menor que o BERT+LM e a linha de base sem qualquer pré-treinamento.

Tabela 4: Comparações entre o MASS e outros métodos da linha de base do PPL no Movie Dialog corpus.

O MASS alcança consistentemente ganhos significativos em diferentes tarefas de geração de linguagem baseada na sequência para sequência. Estamos ansiosos para testar o desempenho do MASS em tarefas de compreensão da linguagem natural. Um trabalho futuro inclui a aplicação do MASS em outras tarefas de geração de linguagem baseadas na sequência para sequência nos domínios de imagem e vídeo.

Para mais informações, convidamos você a examinar o nosso artigo, “MASS: Geração de Linguagem para Pré-treinamento Sequência para Sequência Mascarada”. Nosso código fonte e os modelos pré-processados também estão disponíveis em GitHub. Nós agradecemos os seus comentários!

***

Artigo originalmente publicado em Microsoft Research.


Autor: Microsoft Tech