¿Alguna vez se ha sentido confundido acerca del significado de parámetros como la escala CFG, la semilla o el indicador negativo? Has venido al lugar correcto. En esta guía, le daremos la explicación más completa de cada parámetro con ejemplos claros. Puede que pienses que ya lo sabes todo, pero te garantizamos que aprenderás algo nuevo. Empecemos y desbloqueemos todo el potencial de Stable Diffusion con estos parámetros juntos.
Un mensaje negativo es exactamente lo que parece: es lo opuesto a un mensaje. Tu entrada es lo que NO quieres que genere Stable Diffusion. Esta es una función muy poderosa pero infrautilizada de Stable Diffusion, y puede ayudarlo a lograr resultados que tardarían mucho más en alcanzarse simplemente modificando el mensaje positivo.
Sabemos que puede ser difícil encontrar mensajes negativos, por lo que hemos seleccionado previamente los mensajes negativos https://openart.ai/create para que puedas elegir fácilmente, aquí tienes algunos ejemplos para demostrar sus efectos.
Indicaciones negativas generales: General: baja resolución, error, recortado, peor calidad, baja calidad, artefactos jpeg, fuera de marco, marca de agua, firma
Indicaciones negativas para retratos de personas: deforme, feo, mutilado, desfigurado, texto, miembros adicionales, corte en la cara, corte en la cabeza, dedos adicionales, brazos adicionales, rostro mal dibujado, mutación, malas proporciones, cabeza cortada, miembros malformados, manos mutadas, dedos fusionados, cuello largo
Indicaciones negativas para imágenes fotorrealistas: Fotorrealista: ilustración, pintura, dibujo, arte, boceto'
Stable Diffusion crea una imagen comenzando con un lienzo lleno de ruido y eliminándolo gradualmente hasta llegar al resultado final. Este parámetro controla el número de estos pasos de eliminación de ruido. Por lo general, cuanto más alto es mejor, pero hasta cierto punto. El valor predeterminado que utilizamos es de 25 pasos, lo que debería ser suficiente para generar cualquier tipo de imagen.
Esta es una guía general sobre el número de paso que se debe usar en los diferentes casos:
Algunas personas están acostumbradas a crear imágenes con 100 o 150 pasos, esto era útil para muestreadores como LMS, pero ahora, por lo general, ya no es necesario con los muestreadores rápidos mejorados como DDIM y DPM Solver++, si sigue un gran número de pasos con estos muestreadores, es probable que esté desperdiciando tiempo y potencia de GPU, sin aumentar la calidad de la imagen.
Como mencionamos anteriormente, los modelos de difusión funcionan eliminando el ruido de un lienzo de ruido inicial. Aquí es donde los samplers de Diffusion entran en acción. En pocas palabras, estos muestreadores son algoritmos que toman la imagen generada después de cada paso y la comparan con lo que solicitaba el mensaje de texto, y luego añaden algunos cambios al ruido hasta que gradualmente llega a una imagen que coincide con la descripción del texto.
En OpenArt hemos implementado los tres muestreadores más utilizados por los usuarios, Euler A, DDIM y DPM Solver++. Puedes probar los tres y ver cuál se ajusta mejor a tu mensaje, ya que no hay ninguna regla sobre qué muestreador usar, pero estos tres son muy rápidos y capaces de producir resultados coherentes en 15 a 25 pasos.
Solo hay una diferencia notable entre Euler a sampler y los otros dos que vale la pena mencionar, en esta comparativa puedes ver cómo Euler a resultados — comparados con DPM Solver++— tienen colores más suaves con bordes menos definidos, lo que le da un aspecto más «de ensueño», así que usa Euler a si este es un efecto que prefieres en tus imágenes generadas.
Este parámetro se puede ver como la escala «Creatividad frente a rapidez». Los números más bajos dan a la IA más libertad para ser creativa, mientras que los números más altos la obligan a ceñirse más a las instrucciones.
El CFG predeterminado que se usa en OpenArt es 7, lo que ofrece el mejor equilibrio entre la creatividad y la generación de lo que desea. Por lo general, no se recomienda ir por debajo de 5, ya que las imágenes pueden empezar a parecerse más a las alucinaciones de la IA, y por encima de 16 puede empezar a mostrar imágenes con artefactos feos.
Entonces, ¿cuándo usar diferentes valores de escala CFG? La escala CFG se puede dividir en diferentes rangos, cada uno adecuado para un tipo de mensaje y un objetivo diferentes
La semilla es un número que decide el ruido aleatorio inicial del que hablamos anteriormente, y dado que el ruido aleatorio es lo que determina la imagen final, es la razón por la que obtiene una imagen diferente cada vez que ejecuta exactamente el mismo mensaje en sistemas StableDiffusion como OpenArt, y por la que obtiene la misma imagen generada si ejecuta la misma semilla con el mismo mensaje varias veces.
Dado que la misma combinación de semilla y mensaje da la misma imagen cada vez, podemos usar esta propiedad a nuestro favor de varias maneras:
La función Img2img funciona exactamente de la misma manera que txt2img, la única diferencia es que usted proporciona una imagen para usarla como punto de partida en lugar del ruido generado por el número de semilla.
Se añade ruido a la imagen que se utiliza como imagen de inicio para img2img y, a continuación, el proceso de difusión continúa según la indicación. La cantidad de ruido añadido depende del parámetro «Intensidad de img2img», que va de 0 a 1, donde 0 no añade ningún ruido y obtendrás exactamente la imagen que has añadido, y 1 sustituye completamente la imagen por ruido y actúa casi como si utilizaras txt2img normal en lugar de img2img.
Entonces, ¿cómo decidir qué fuerza usar? He aquí una guía sencilla con ejemplos:
¡Felicidades por llegar tan lejos! Ahora tiene una comprensión completa de todos los parámetros de difusión estable. Si desea obtener más información sobre cómo escribir mejores indicaciones, puede consultar nuestra Libro rápido. Definitivamente, pruébalo creando algunas imágenes de IA en https://openart.ai/create.
Esta publicación es una contribución de un miembro de nuestra comunidad Aviso público, quien también es el creador de http://publicprompts.art/.
En conclusión, dominar los parámetros de difusión estables es clave para los artistas que buscan ampliar los límites de la creatividad mejorada por la IA. El objetivo de esta guía es proporcionarle los conocimientos necesarios para ajustar con precisión estos parámetros, combinando su visión artística con las capacidades de la IA. Recuerda que la experimentación es tu mejor herramienta. Cada ajuste de los parámetros es un paso más cerca de perfeccionar tu arte. A medida que continúes explorando y creando, conserva esta guía como referencia y no olvides regístrate en Open Art para obtener más información, herramientas y una comunidad de creativos con ideas afines. Tanto si acabas de empezar como si buscas perfeccionar tus habilidades, el viaje de descubrimiento y creación es interminable.