O guia mais completo para parâmetros de difusão estáveis

Você já se sentiu confuso sobre o significado de parâmetros como escala CFG, semente ou aviso negativo? Você veio ao lugar certo. Neste guia, daremos a explicação mais completa de cada parâmetro com exemplos claros. Você pode pensar que já sabe tudo, mas garantimos que aprenderá algo novo. Vamos começar e desbloquear todo o potencial da difusão estável com esses parâmetros juntos.

Solicitação negativa

Um aviso negativo é exatamente o que parece — é o oposto de um aviso. Sua entrada é o que você NÃO deseja que a difusão estável gere. Esse é um recurso muito poderoso, mas subutilizado, da difusão estável, e pode ajudá-lo a obter resultados que levariam muito mais tempo para serem alcançados apenas ajustando o aviso positivo.

Sabemos que pode ser difícil apresentar solicitações negativas, por isso, pré-selecionamos as solicitações negativas em https://openart.ai/create para você escolher facilmente, aqui estão alguns exemplos para demonstrar seus efeitos.

Solicitações negativas gerais: Geral: baixa resolução, erro, recortado, pior qualidade, baixa qualidade, artefatos jpeg, fora de quadro, marca d'água, assinatura

Avisos negativos para retratos de pessoas: deformado, feio, mutilado, desfigurado, texto, membros extras, corte facial, corte na cabeça, dedos extras, braços extras, rosto mal desenhado, mutação, proporções ruins, cabeça cortada, membros malformados, mãos mutantes, dedos fundidos, pescoço comprido

Solicitações negativas para imagens fotorrealistas: Fotorrealista: ilustração, pintura, desenho, arte, esboço'

Etapas

A difusão estável cria uma imagem começando com uma tela cheia de ruído e diminuindo-a gradualmente para alcançar a saída final. Esse parâmetro controla o número dessas etapas de eliminação de ruído. Normalmente, maior é melhor, mas até certo ponto. O padrão que usamos são 25 etapas, o que deve ser suficiente para gerar qualquer tipo de imagem..

Aqui está um guia geral sobre qual número de etapa usar em casos diferentes:

Se você estiver testando um novo prompt e quiser obter resultados rápidos para ajustar sua entrada, use de 10 a 15 etapas
Quando você encontrar a solicitação desejada, aumente as etapas para 25.
Caso você esteja criando um rosto ou um animal com pelo ou qualquer objeto com textura detalhada e sinta que faltam alguns desses detalhes nas imagens geradas, tente aumentar para 40!

O mesmo prompt com diferentes números de etapas

Algumas pessoas estão acostumadas a criar imagens com 100 ou 150 etapas, isso foi útil para amostradores como o LMS, mas agora geralmente não é mais necessário com os amostradores rápidos aprimorados, como DDIM e DPM Solver++, ao usar um grande número de etapas com esses amostradores, você provavelmente estará desperdiçando seu tempo e energia da GPU, sem nenhum aumento na qualidade da imagem.

Amostradores

Como mencionamos anteriormente, os modelos de difusão funcionam eliminando o ruído de uma tela de ruído inicial. É aqui que os amostradores de difusão entram em ação. Em termos simples, esses amostradores são algoritmos que pegam a imagem gerada após cada etapa e a comparam com o que o prompt de texto solicitou e, em seguida, adicionam algumas alterações ao ruído até que ele alcance gradualmente uma imagem que corresponda à descrição do texto.

No OpenArt, implementamos os três amostradores mais usados pelos usuários, Euler A, DDIM e DPM Solver++. Você pode experimentar os três e ver qual se adapta melhor à sua solicitação, pois não há uma regra sobre qual amostrador usar, mas esses três são muito rápidos e capazes de produzir resultados coerentes em 15 a 25 etapas.

Há apenas uma diferença perceptível entre Euler a amostrador e os outros dois que vale a pena mencionar, nesta comparação você pode ver como Euler a resultados — em comparação com Solucionador DPM++— tenha cores mais suaves com bordas menos definidas, dando uma aparência mais “sonhadora”, então use Euler a se esse for um efeito que você prefere nas imagens geradas.

Escala de orientação CFG

Esse parâmetro pode ser visto como a escala “Criatividade versus Prompt”. Números mais baixos dão à IA mais liberdade para ser criativa, enquanto números mais altos a forçam a se ater mais às instruções.

O CFG padrão usado no OpenArt é 7, que oferece o melhor equilíbrio entre criatividade e geração do que você deseja. Ir abaixo de 5 geralmente não é recomendado, pois as imagens podem começar a se parecer mais com alucinações de IA, e ir acima de 16 pode começar a gerar imagens com artefatos feios

Então, quando usar valores diferentes da escala CFG? A escala CFG pode ser separada em diferentes faixas, cada uma adequada para um tipo de aviso e objetivo diferentes

CFG 2 — 6: Criativo, mas pode estar muito distorcido e não seguir as instruções. Pode ser divertido e útil para instruções curtas
CFG 7 — 10: Recomendado para a maioria das solicitações. Bom equilíbrio entre criatividade e geração guiada
CFG 10 — 15: Quando você tiver certeza de que sua solicitação é detalhada e muito clara sobre como você deseja que a imagem fique
CFG 16 — 20: Geralmente não é recomendado, a menos que a solicitação seja bem detalhada. Pode afetar a coerência e a qualidade
CFG >20: quase nunca utilizável

Semente

A semente é um número que decidiu o ruído aleatório inicial sobre o qual falamos anteriormente, e como o ruído aleatório é o que determina a imagem final, é a razão pela qual você obtém uma imagem diferente cada vez que executa exatamente o mesmo prompt em sistemas StableDiffusion como o OpenArt, e por que você obtém a mesma imagem gerada se executa a mesma semente com o mesmo prompt várias vezes.

Como a mesma combinação de seed e prompt sempre fornece a mesma imagem, podemos usar essa propriedade a nosso favor de várias maneiras:

Controle características específicas de um personagemR: neste exemplo, mudamos a emoção, mas isso também pode funcionar para outras características físicas, como cor do cabelo ou da pele, mas quanto menor a mudança, maior a probabilidade de ela funcionar

Testando o efeito de palavras específicas: Se você quer saber o que uma palavra específica está mudando no prompt, você pode usar a mesma semente com um prompt modificado para testá-la. É uma boa prática testar os prompts dessa forma alterando uma única palavra ou frase a cada vez

Alterar estilo: Se você gosta da composição de uma imagem, mas quer saber como ela ficaria em um estilo diferente, isso pode ser usado para retratos, paisagens ou qualquer cena que você criar.

Parâmetros Img2img

O recurso Img2img funciona exatamente da mesma forma que o txt2img, a única diferença é que você fornece uma imagem para ser usada como ponto de partida, em vez do ruído gerado pelo número da semente.

O ruído é adicionado à imagem que você usa como imagem inicial para img2img e, em seguida, o processo de difusão continua de acordo com o prompt. A quantidade de ruído adicionada depende do parâmetro “Força do img2img”, que varia de 0 a 1, onde 0 não adiciona nenhum ruído e você obtém a imagem exata que você adicionou, e 1 substitui completamente a imagem por ruído e quase age como se você tivesse usado txt2img normal em vez de img2img.

Então, como decidir qual força usar? Aqui está um guia simples com exemplos:

Para criar variações de uma imagem, a intensidade sugerida a ser usada seria de 0,5 a 0,75 e com o mesmo aviso. Isso pode ser útil quando você gosta da composição de uma imagem criada, mas alguns detalhes não parecem bons o suficiente, ou se você deseja criar imagens com aparência semelhante às imagens criadas em outro software, como o blender ou o photoshop (nesse caso, o prompt seria uma descrição da imagem).

Para alterar o estilo de uma imagem e mantê-la semelhante ao original, você pode usar um img2img de menor intensidade várias vezes e obter uma fidelidade de imagem muito melhor em comparação com um único img2img com maior intensidade. Neste exemplo, usamos uma força de 0,25 por 4 vezes, então, cada vez que geramos a imagem, reinserimos a imagem gerada no img2img e a executamos novamente com o mesmo aviso e força até obtermos o estilo de que precisamos. Se a mesma imagem fosse usada em img2img com maior intensidade, você perderia rapidamente a semelhança da imagem.

Parabéns por chegar até aqui! Agora você tem uma compreensão abrangente de todos os parâmetros de difusão estável. Se você quiser saber mais sobre como escrever instruções melhores, confira nosso Livro rápido. Definitivamente, experimente criar algumas imagens de IA no https://openart.ai/create.

Esta postagem foi contribuída por um membro da nossa comunidade Aviso público, que também é o criador do http://publicprompts.art/.

Comece a criar no OpenArt!

Concluindo, dominar os parâmetros de difusão estáveis é fundamental para artistas que buscam ultrapassar os limites da criatividade aprimorada pela IA. Este guia tem como objetivo equipá-lo com o conhecimento necessário para ajustar esses parâmetros, combinando sua visão artística com os recursos da IA. Lembre-se de que a experimentação é sua melhor ferramenta. Cada ajuste nos parâmetros está um passo mais perto de aperfeiçoar sua arte. À medida que você continua explorando e criando, mantenha este guia como referência e não se esqueça de inscrever-se na Open Art para obter mais informações, ferramentas e uma comunidade de criativos com ideias semelhantes. Se você está apenas começando ou está procurando refinar suas habilidades, a jornada de descoberta e criação é infinita.