Bingyang Wu e Zili Zhang, Universidade de Pequim;Zhihao Bai, Universidade Johns Hopkins;Xuanzhe Liu e Xin Jin, Universidade de Pequim
Os contêineres são amplamente utilizados para gerenciamento de recursos em datacenters.Apresentamos o TGS (Compartilhamento de GPU transparente), um sistema que fornece compartilhamento transparente de GPU para o treinamento em DL em nuvens de contêineres.Como resultado, os clusters de GPU têm baixa utilização de GPU, o que leva a um longo tempo de conclusão do trabalho por causa da fila.NSDI ’23 Acesso aberto Byking da Universidade de Ciência e Tecnologia de Abdullah (Kaust)
A USENIX está comprometida com o acesso aberto à pesquisa apresentada em nossos eventos.Em forte contraste com as recentes soluções da camada de aplicação para compartilhamento de GPU, o TGS opera na camada do sistema operacional abaixo dos recipientes.
Fonte: https://www.usenix.org/conference/nsdi23/presentation/wu