00:00:00A RunPod acaba de lançar uma nova ferramenta de serviço muito legal chamada RunPod Flash.
00:00:04Ela foi projetada para simplificar como fazemos o deploy de funções de GPU serverless.
00:00:09Tradicionalmente, levar um script Python local para uma GPU na nuvem exigia criar uma imagem Docker,
00:00:14configurar o ambiente, enviá-la para o registro e gerenciar um deploy separado.
00:00:19Mas o Flash elimina esse fardo, permitindo que você transforme funções Python padrão
00:00:24em endpoints na nuvem usando decoradores simples que você pode executar sob demanda.
00:00:29No vídeo de hoje, vamos analisar de perto o RunPod Flash, ver como ele funciona,
00:00:33e testá-lo criando um gerador de vídeo por IA sob demanda.
00:00:38Vai ser muito divertido, então vamos direto ao assunto.
00:00:41O RunPod Flash funciona basicamente abstraindo inteiramente a camada de infraestrutura.
00:00:50Em vez de você gerenciar o deploy, o SDK do Flash empacota seu código e suas dependências,
00:00:55e então os envia para um worker gerenciado, que só existe enquanto sua função está rodando.
00:01:01Um dos melhores recursos é a sincronização automática do ambiente.
00:01:04Estou programando em um Mac, mas o Flash cuida de todo o trabalho pesado entre plataformas,
00:01:09garantindo que cada biblioteca seja compilada corretamente para os workers de GPU Linux no momento em que eu clico em rodar.
00:01:15Ele então provisiona silenciosamente um endpoint serverless para cada função,
00:01:20o que significa que você obtém escalabilidade e hardware independentes para cada tarefa dedicada sem nunca tocar
00:01:26em um arquivo de configuração. Mas a verdadeira mágica acontece quando você integra essas funções em um serviço
00:01:31de backend. Como cada função decorada é essencialmente um endpoint de API ativo, você pode dispará-las
00:01:36de um app web, de um bot do Discord ou de um backend mobile com zero configuração extra.
00:01:42E a arquitetura é perfeita para escalar, pois você pode disparar dezenas de tarefas paralelas de uma só vez.
00:01:48Por exemplo, se você tem 10 usuários esperando para gerar vídeos de IA, o Flash simplesmente ativa 10
00:01:54workers independentes e depois desliga tudo no segundo em que terminarem. Assim, você não fica
00:01:59esperando uma única GPU terminar toda a fila. A infraestrutura simplesmente cresce ou encolhe,
00:02:05dependendo do seu tráfego. Agora, você pode pensar que um pipeline de vários estágios como este,
00:02:10misturando diferentes hardwares e dados, exigiria uma camada de orquestração complexa. Mas no Flash,
00:02:16basta passar uma variável de uma função para outra. Para mostrar o quão poderoso
00:02:21isso é, vamos construir um pipeline de vários estágios. Primeiro, usaremos um worker de CPU simples e barato
00:02:27para lidar com o pré-processamento. Neste caso, redimensionaremos as imagens de entrada de forma adaptativa. E então
00:02:33passaremos esses dados, ou seja, a imagem redimensionada, para uma GPU RTX 5090 de ponta para gerar um vídeo
00:02:41de alta fidelidade usando o modelo Cog Video X. Isso garante que não desperdiçaremos dinheiro em uma GPU top de linha para
00:02:47tarefas simples como redimensionamento de imagem. Nós só a chamamos para as funções que exigem o trabalho
00:02:52pesado. Para começar, podemos criar um ambiente virtual usando UV e, em seguida, adicionar o RunPod Flash,
00:02:59e recarregar o ambiente virtual para garantir que esteja funcionando, para que as variáveis de caminho
00:03:03do ambiente sejam recarregadas. Depois, você deve fazer login na sua conta RunPod executando "Flash login".
00:03:09A partir daí, podemos passar para a configuração dos nossos endpoints reais. Aqui eu tenho um arquivo Python
00:03:14simples. Como podem ver, ele é bem pequeno e tem dois endpoints Flash. Um está fazendo
00:03:19o redimensionamento adaptativo para as imagens de entrada, como mencionei antes. E como podem ver aqui,
00:03:24ele está apenas usando uma CPU simples e chamando um redimensionador de imagem. Nada de especial. E não precisamos
00:03:31de nada sofisticado para uma operação de processamento de imagem tão simples. Mas no segundo endpoint, temos nosso pipeline
00:03:37personalizado de gerador de vídeo, onde estamos ativando uma instância de GPU dedicada com uma RTX 5090. E usando
00:03:43o gerador de vídeo Cog Video X de 5 bilhões de parâmetros para criar um vídeo baseado na nossa imagem de entrada redimensionada.
00:03:51Agora podemos ver como funciona quando o executamos. Podemos apenas adicionar uma imagem simples deste cachorro,
00:03:57e então fornecer um prompt que usaremos para a geração do vídeo. E se voltarmos ao
00:04:02RunPod agora, podemos ver que há dois workers dedicados com uma fila ativa que estão
00:04:07processando nossa imagem e nosso vídeo. E devo mencionar que, ao rodar esses endpoints pela
00:04:12primeira vez, você pode notar que o pipeline demora consideravelmente mais. Isso ocorre porque o RunPod
00:04:17está basicamente instalando todas as dependências e baixando os pesos do modelo, mas cada
00:04:22execução consecutiva depois disso será consideravelmente mais rápida. Agora, vamos esperar mais alguns segundos
00:04:28até que o pipeline termine. E pronto, agora temos nosso belo vídeo de saída.
00:04:33Na aba de análise do RunPod, também podemos acompanhar quantos deploys tivemos, quantos foram
00:04:39bem-sucedidos e quantos falharam. E também podemos acompanhar nossa cobrança. Então aí está,
00:04:43isso é o RunPod Flash em poucas palavras. Sinceramente, acho que este é um recurso super legal se você estiver
00:04:49construindo qualquer serviço de backend que exija uma tarefa pesada de processamento de IA sob demanda, como geração de imagem,
00:04:56geração de vídeo ou análise pesada de documentos ou algo do tipo. Mas o que você acha
00:05:01sobre o RunPod Flash? Acha que esse recurso é útil? Já testou? Você usaria?
00:05:06Deixe sua opinião nos comentários abaixo. E pessoal, se vocês gostam desse tipo de análise técnica,
00:05:10por favor, me avisem clicando no botão de curtir abaixo do vídeo. E também não se esqueçam de
00:05:15se inscrever no nosso canal. Aqui é o Andris da Betterstack e vejo vocês nos próximos vídeos.