linux-BR.org

Notícias de software livre e tecnologias

Este código é baseado em dois repositórios impressionantes: clipe do Openai (https://github.com/openai/clip) e openi-clip de Moein-shariatnia (https://github.com/moein-shariatnia/openai-clip).Essa abordagem é inspirada em métodos como Flamingo (https://arxiv.org/abs/2204.14198) e Selfdoc (https://arxiv.org/abs/2106.03331).Execute o treinamento e avaliação do modelo no CIFAR10 usando:
Validação com a configuração e código do modelo fornecido alcançado ~ 81,8% de precisão no CIFAR10.Isso contrasta o uso de uma função de perda no final dos modelos (por exemplo, clipe) para construir correlações entre as modalidades.
Ainda um trabalho em andamento para validação e teste adicionais
Este repo implementa um modelo que intercala a atenção + blocos de atendimento cruzado, como mostrado no diagrama.

Fonte: https://github.com/lnairGT/Interleaved-Cross-CLIP