A arquitetura monolítica, envolvendo uma unidade única e indivisível, oferece simplicidade, mas limita a escalabilidade e a resiliência, principalmente para processos intensivos em computação, como a inferência de IA.Por outro lado, uma arquitetura de microsserviços divide o aplicativo em serviços menores e independentes em paralelo, aprimorando a velocidade e a eficiência do processamento de dados para os componentes intensivos em computação da IA.No próximo capítulo, mergulharemos mais profundamente nos microsserviços individuais, discutiremos suas funções e exploraremos como eles trabalham juntos para criar um aplicativo escalável de IA.Mas a implantação de sistemas de IA em escala requer mais pensamento e planejamento;Envolve sistemas complexos, conjuntos de dados grandes, requisitos de computação intensos e demandas de desempenho mais rigorosas.
O desenvolvimento de aplicativos de IA normalmente começa com a experimentação, geralmente usando notebooks Python, bibliotecas locais de ML e pequenos conjuntos de dados.
Fonte: https://www.pinecone.io/learn/series/kubernetes/scaling-ai-apps-kubernetes-and-pinecone-intro/