DALL-E 3 vs Midjourney vs  Stable Diffusion

Voor een uitgeverij hebben we een vergelijking gemaakt tussen drie AI-Modellen die afbeeldingen kunnen genereren op basis van tekst. De afbeeldingsprompt (= tekst die we aan de het model geven voor het genereren van de afbeeldingen) laten we maken door GPT door middel van een prompt-template in onze AI-Tools applicatie.

NB: We hebben het hier over de "prompt-template" die we gebruiken om GPT te instrueren een "afbeeldingsprompt" te genereren. Dus, de eerste prompt is het verzoek aan GPT om een tekst te leveren, en deze "afbeeldingsprompt", die we vervolgens ontvangen, is de input voor het AI-model om de afbeelding te genereren.

AFBEELDINGEN_MAKEN - MAAK_AFBEELDING_PROMPT

In de "MAAK_AFBEELDING_PROMPT" prompt-template vragen we GPT om een afbeeldingsprompt te schrijven voor de te genereren afbeelding.

Prompt-template
FIguur 1: Prompt-template in de AI-Tools applicatie voor het genereren van de afbeeldingsprompt

Voorbeelden

In het prompt-tekstblok "AFBEELDINGSPROMPT_VOORBEELDEN "geven een tweetal voorbeelden van prompts voor afbeeldingen.

Afbeeldingsprompt voorbeelden
Figuur 2: Voorbeelden van afbeeldingsprompts als input voor het AI-model

Aanwijzingen

We geven vervolgens middels het "STIJL_REALISTISCH" prompt-tekstblok een aantal aanvullende aanwijzingen.

Afbeeldingsprompt aanwijzingen
Figuur 3: Aanwijzingen voor de te genereren afbeeldingsprompt

DALL-E 3 heeft de neiging om te veel mensen in de afbeelding te plaatsen en om er te gelikte/gladde plaatjes van te maken. Dat proberen met bovenstaande aanwijzingen wat in te dammen.

Speciale aanwijzing voor DALL-E 3

De bovenstaande aanwijzingen zijn ook nuttig voor het maken van afbeeldingprompts voor bijvoorbeeld Midjourney en Stable Diffusion. DALL-E 3 herschrijft de prompt die we het model geven eerst zelf nog voordat de afbeelding gegenereerd wordt. Met onderstaande extra aanwijzing proberen we te voorkomen dat de uiteindelijke prompt te gelikte plaatjes oplevert.

Afbeeldingsprompt aanwijzingen Dall-E 3
Figuur 4: Extra aanwijzing speciaal voor DALL-E 3

Resultaat

Dit is een voorbeeld van een afbeeldingsprompt waar GPT mee kan komen op basis van bovenstaande prompt-template en een artikel over een begraafplaats waar vrijwilligers aanwezig zijn voor een gesprek met bezoekers die daar behoefte aan hebben:

“Een onopvallende begraafplaatssetting met een paar mensen, inclusief een vrijwilliger in eenvoudige kleding die koffie en thee aanbiedt aan een oudere bezoeker die behoefte heeft aan een luisterend oor. De vrijwilliger heeft een vriendelijke, empathische uitstraling terwijl de bezoeker zijn verhaal deelt. De achtergrond toont een serene begraafplaats met grafstenen en bomen. De foto lijkt te zijn genomen door een amateur met een smartphone, waardoor het een rauw en natuurlijk gevoel heeft.”

AFBEELDINGEN_MAKEN - AFBEELDING_VAN_OMSCHRIJVING

Bovenstaande afbeeldingsprompt-tekst gebruiken we vervolgens in een AI-Tools prompt-reeks om door het DALL-E 3 model een afbeelding te laten genereren.

Gegenereerd afbeeldingsprompt
Figuur 5: Prompt-template waarmee we DALL-E 3 vragen om een afbeelding te genereren.

AFBEELDING OPSLAAN

Het “probleem” met DALL-E 3 is dat de prompt die je aanlevert eerst nog door het model wordt herschreven. Dat maakt het lastig om een heel specifieke afbeelding te genereren.

Van de prompt uit de eerste stap maakt DALL-E 3 deze tekst als “revised” prompt:

“An understated cemetery setting with a few people. Include a Caucasian female volunteer in simple attire, offering coffee and tea to a Middle-Eastern elderly male visitor who is in need of a sympathetic ear. The volunteer exudes a friendly, empathetic demeanor while the visitor shares his story. The background reveals a serene cemetery with gravestones and trees. The snapshot appears to have been captured by an amateur, presumably with a smartphone, giving it a raw and natural feel.”

dall-e 3 resultaat
Figuur 6: Antwoord van DALL-E 3  met gegenereerde afbeelding en herschreven prompt

ChatGPT

In ChatGPT kunnen we GPT vragen om zich strikt te houden aan de aangegeven prompt.

“Maak een afbeelding in landscape formaat van onderstaande prompt. De prompt die ik je geef is heel goed over nagedacht en elk woord telt. Herschrijf deze tekst dus absoluut niet maar gebruik deze letterlijk bij het maken van de afbeelding.”

ChatGPT resultaat
Figuur 7 Afbeelding gemaakt in ChatGPT zonder herschreven prompt.

Dit maakt in zoverre verschil dat we geen man uit het Midden-Oosten te zien krijgen, maar de afbeelding ziet er nog wel overdreven gladjes uit. Via de API waar we in AI-Tools gebruik maken lukt het niet om het herschrijven van de prompt te voorkomen.

Midjourney

Een andere tool voor het maken van afbeeldingen op basis van een afbeeldingsprompt-tekst is Midjourney. Midjourney heeft (nog) geen API dus we kunnen deze dus niet direct vanuit de AI-Tools module aanroepen. We kunnen echter wel de prompt-tekst in WATCH genereren en deze prompt vervolgens rechtstreeks in Midjourney gebruiken. Midjourney wordt nu gebruikt vanuit Discord: https://docs.midjourney.com/docs/quick-start.

Om Midjourney te gebruiken hebben we een Engeltalige prompt nodig.

Prompt in het Nederlands:

“Een onopvallende begraafplaatssetting met een paar mensen, inclusief een vrijwilliger in eenvoudige kleding die koffie en thee aanbiedt aan een oudere bezoeker die behoefte heeft aan een luisterend oor. De vrijwilliger heeft een vriendelijke, empathische uitstraling terwijl de bezoeker zijn verhaal deelt. De achtergrond toont een serene begraafplaats met grafstenen en bomen. De foto lijkt te zijn genomen door een amateur met een smartphone, waardoor het een rauw en natuurlijk gevoel heeft.”

We laten ChatGPT de prompt vertalen naar het Engels:

Prompt in het Engels

“An unobtrusive cemetery setting with a few people, including a volunteer in simple clothing offering coffee and tea to an elderly visitor in need of a listening ear. The volunteer has a friendly, empathetic demeanor while the visitor shares their story. The background shows a serene cemetery with gravestones and trees. The photo appears to have been taken by an amateur with a smartphone, giving it a raw and natural feel.”

Als we deze prompt zonder aanpassingen in Discord gebruiken krijgen we vier vierkante afbeeldingen:

midjourney 4 vierkant engels

Bekijke of download het origineel op ware grootte

Prompt in het Engels met een aantal parameters

We kunnen bij gebruik van Midjourney een aantal paramaters meegegeven met de afbeeldingsprompt-tekst. In onderstaand voorbeeld heb ik deze parametertekst toegevoegd:

--style raw --s 50 --ar 7:4

  • --aspect, or --ar Change the aspect ratio of a generation.
  • --style raw have less automatic beautification applied, which can result in a more accurate match when prompting for specific styles.
  • --stylize , or --s parameter influences how strongly Midjourney's default aesthetic style is applied to Jobs.

Dit is dus de prompt die we aan Midjourney geven ziet er als volg uit:

“An unobtrusive cemetery setting with a few people, including a volunteer in simple clothing offering coffee and tea to an elderly visitor in need of a listening ear. The volunteer has a friendly, empathetic demeanor while the visitor shares their story. The background shows a serene cemetery with gravestones and trees. The photo appears to have been taken by an amateur with a smartphone, giving it a raw and natural feel. --style raw --s 50 --ar 7:4”

Dit resulteert in onderstaande vier afbeeldingen:

midjourney engels 4 variaties

Bekijke of download het origineel op ware grootte

Variaties op een afbeelding

We kunnen in met Midjourney eenvoudig van een afbeelding die ons bevalt een aantal nieuwe variaties laten maken. Hieronder zien we vier variaties die gemaakt zijn van de afbeelding rechtsboven in de vorige stap.

midjourney 4 variaties

Bekijke of download het origineel op ware grootte

Uitvergroten (4 x)

We kunnen vervolgens vragen om een afbeelding uit te laten vergroten. We kiezen nu de afbeelding linksboven en kiezen voor 4 keer vergroten en krijgen dan een vergrote versie van 5824 x 3328 pixels.

midjourney uitvergroot

Bekijke of download het origineel op ware grootte

Stable Diffusion

Een derde optie voor het genereren van afbeeldingen is Stable Diffusion. Dit AI-model heeft wel een API dus we kunnen dit model vanuit WATCH AI-Tools gaan gebruiken. Deze koppeling is nu nog niet in WATCH AI-Tools gerealiseerd, maar we kunnen al wel online onze prompt testen op dit model. We gebruiken hiervoor de DreamStudio-tool voor die gemaakt is door Stability AI, het bedrijf achter Stable Diffusion.

Originele prompt

“An unobtrusive cemetery setting with a few people, including a volunteer in simple clothing offering coffee and tea to an elderly visitor in need of a listening ear. The volunteer has a friendly, empathetic demeanor while the visitor shares their story. The background shows a serene cemetery with gravestones and trees. The photo appears to have been taken by an amateur with a smartphone, giving it a raw and natural feel.”

Als bij Stable Diffusion dezelfde prompt gebruiken als voor Dall-E 3 en Midjourney krijgen we onderstaande resultaat.

Stable diffusion origineel 1
Stable diffusion origineel 2
Stable diffusion origineel 3
Stable diffusion origineel 4

Het zijn wat vreemde plaatjes, en als we inzoomen op de gezichten zien we dat dit hier grote problemen zijn. Ook handen zien er vaak raar uit.

enge fout 1
enge fout 2
enge fout 3

Aangepaste prompt

We passen nu twee technieken toe om Stable Diffusion betere gezichten te laten maken:

  • We vragen om een foto van dichterbij zodat de gezichten groter in beeld verschijnen.
  • We geven details van de gezichten in de prompt zodat het model daar meer van zijn “aandacht” op richt.

Het toepassen van deze technieken resulteert in onderstaande prompt:

“An unobtrusive cemetery setting with a few people, including a volunteer with beautifuly eyes, high detail skin in simple clothing offering coffee and tea to a visitor (that has beautifuly eyes also and show high detail skin) in need of a listening ear. The volunteer has a friendly, empathetic demeanor while the visitor shares their story. The background shows a serene cemetery with gravestones and trees. The photo appears to have been taken by a journalist as a close up with a nice camera, giving it a natural feel.”

De afbeeldingen die we met deze prompt genereren zien er al een stuk beter uit.

Stable diffusion aangepast 1
Stable diffusion aangepast 2
Stable diffusion aangepast 3
Stable diffusion aangepast 4

Variaties

Net als bij de Midjourney afbeeldingen kiezen we hier ook weer een afbeelding om er een viertal variaties van te laten maken. We maken variaties van de afbeelding rechtsboven in de vorige stap.

Stable diffusion variaties 1
Stable diffusion variaties 2
Stable diffusion variaties 3
Stable diffusion variaties 4

Uitvergroting (2688 x 1536)

Ik vind de variaties niet beter dan het origineel, dus we gebruiken het origineel om daarvan een vergroting van te laten maken.

Upscale: This operation outputs an image with a maximum pixel count of 4,194,304. This is equivalent to dimensions such as 2048x2048 and 4096x1024.

midjourney uitvergroot

Bekijke of download het origineel op ware grootte

Het origineel was 1344 x 768 (= 1.032.192 pixels). Als we deze 2x vergroten krijgen we 2688 x 1536 pixels (= 4.128.768). Dit is dus nu het maximumaantal pixels dat we voor deze afbeelding door Stable Diffusion kunnen laten genereren.

Opensource

In tegenstelling tot Dall-E en Midjourney is Stable Diffusion open source en je kunt het (mits je een goede GPU hebt) zelf lokaal installeren en dus dan ook gratis gebruiken. Dit is niet iets om direct te doen, maar het is wel een interessante optie om in het achterhoofd te houden als het veel gebruikt gaat worden.

laatste nieuws

GPT-4o: Sneller en Goedkoper

Op 13 mei 2024 heeft OpenAI haar nieuwste model, GPT-4o, gelanceerd. Dit model belooft niet alleen twee keer zo snel te zijn als de huidige GPT-4 Turbo versie, maar ook aanzienlijk goedkoper.

lees meer

SCHREEUWEN tegen je computer?

AI-ontwikkelingen suggereren dat we binnenkort misschien op verrassend menselijke manieren met onze apparaten kunnen communiceren. Helpt het om te schreeuwen tegen je AI-model?

lees meer

Fooi geven aan ChatGPT kan leiden tot langere antwoorden

Het aanbieden van een fooi aan ChatGPT kan resulteren in langere antwoorden, volgens ontdekkingen van programmeur Theia Vogel.

lees meer

Geef AI-modellen menselijke aanmoedigingen

Google DeepMind introduceert een nieuwe techniek genaamd OPRO om de wiskundekennis van AI-taalmodellen te verbeteren door middel van menselijke aanmoediging.

lees meer