Escala de áudio
imagem anterior imagem seguinte
Pesquisadores do MIT, do MIT-IBM Watson AI Lab, da IBM Research e de outros lugares desenvolveram uma nova técnica para analisar dados visuais e de áudio não rotulados que podem melhorar o desempenho de modelos de aprendizado de máquina usados em aplicativos como reconhecimento de fala e detecção de objetos. O trabalho, pela primeira vez, combina duas arquiteturas de aprendizado autossupervisionado, aprendizado contrastivo e modelagem de dados mascarados, em um esforço para dimensionar tarefas de aprendizado de máquina como classificação de eventos em dados únicos e multimodais sem a necessidade de anotação, replicando assim como os humanos entendem e percebem nosso mundo.
“Uma grande parte do conhecimento humano é aprendida de maneira autossupervisionada, porque nem sempre recebemos sinais de supervisão e queremos permitir que o modelo de aprendizado de máquina tenha a mesma capacidade”, diz Yuan Gong, pós-doutorado do MIT no Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL).
"Portanto, outra maneira de dizer é que o aprendizado autossupervisionado geralmente forma a base de um modelo inicial, porque ele pode aprender com grandes quantidades de dados não rotulados. E então você pode usar o aprendizado supervisionado clássico ou o aprendizado por reforço para ajustar o modelo para algo específico, se você quiser", diz Jim Glass, cientista sênior de pesquisa do MIT e membro do MIT-IBM Watson AI Lab.
A técnica, chamada de autoencoder mascarado audiovisual contrastivo (CAV-MAE), é um tipo de rede neural que pode aprender a extrair e mapear representações latentes significativas no espaço de alta dimensão a partir de dados acústicos e visuais treinando em grandes conjuntos de dados do YouTube de clipes de áudio e vídeo de 10 segundos. Os pesquisadores dizem que a técnica é mais eficaz do que as abordagens anteriores porque modela explicitamente as relações entre os dados de áudio e visual de uma forma que outros métodos não fazem.
Juntando-se a Gong e Glass no estudo estão os estudantes de pós-graduação Andrew Rouditchenko e Alexander H. Liu do MIT, David Harwath PhD '18 da Universidade do Texas em Austin e os membros do MIT-IBM Watson AI Lab Leonid Karlinsky e Hilde Kuehne. Kuehne também é afiliado à Goethe University Frankfurt. O método foi recentemente apresentado na Conferência Internacional sobre Representações de Aprendizagem.
Uma abordagem conjunta e coordenada
O CAV-MAE funciona "aprendendo por previsão" e "aprendendo por comparação", diz Gong. A modelagem de dados mascarados, ou o método de previsão, leva um vídeo junto com sua forma de onda de áudio coordenada, converte o áudio em um espectrograma e mascara 75% de ambos. Os dados desmascarados são tokenizados e, em seguida, alimentados em codificadores de áudio e visual separados antes de entrar em um codificador/decodificador conjunto, onde o modelo é solicitado a recuperar os dados ausentes. A diferença (perda de reconstrução) entre a previsão reconstruída resultante e a combinação audiovisual original é então usada para treinar o modelo para um melhor desempenho. Um exemplo disso seria cobrir parte de um vídeo de um piano e parte de um espectrograma de música de piano e, em seguida, pedir ao modelo para tentar determinar as entradas mascaradas. Infelizmente, esse método pode não capturar a associação entre o par de vídeo e áudio, enquanto o aprendizado contrastivo aproveita isso, mas pode descartar algumas informações exclusivas da modalidade, como o plano de fundo em um vídeo.
A aprendizagem contrastiva visa mapear representações que são semelhantes próximas umas das outras. Por exemplo, o modelo tentará colocar diferentes dados de vídeo e áudio de diferentes papagaios próximos uns dos outros e mais distantes de pares de vídeo e áudio de guitarras tocando. De maneira semelhante à codificação automática mascarada, os pares audiovisuais são passados para codificadores de modalidade separados; no entanto, os componentes de áudio e visual são mantidos separadamente dentro do codificador conjunto antes que o modelo execute o agrupamento e a perda de contraste. Dessa forma, o aprendizado contrastivo tenta identificar as partes de cada áudio ou vídeo que são mais relevantes para o outro. Por exemplo, se um vídeo mostra alguém falando e o clipe de áudio correspondente contém fala, o codificador automático aprenderá a associar os movimentos da boca do locutor com as palavras que estão sendo faladas. Em seguida, ajustará os parâmetros do modelo para que essas entradas sejam representadas próximas umas das outras. Em última análise, o método CAV-MAE combina ambas as técnicas com vários fluxos de dados diretos com mascaramento como primeira etapa, codificadores específicos da modalidade e normalização de camada para que as forças de representação sejam semelhantes.