Wat is de Dalle-mini en hoe werkt het?

Dalle-mini is een deep learning-model dat afbeeldingen van hoge kwaliteit kan genereren uit gebruikersinvoertekst. Het is gebaseerd op het DALL-E-model, dat OpenAI in januari 2021 heeft uitgebracht. DALL-E staat voor “ Ontwarde taal en latente expressie ' is een op een transformator gebaseerd neuraal netwerk dat tekst en afbeeldingen kan coderen in een gemeenschappelijke latente ruimte en ze vervolgens weer kan decoderen in beide modaliteiten.

In dit artikel wordt de volgende inhoud uitgelegd:

Wat is de Dalle-mini?

Geef haar-mini is een kleinere en snellere versie van DALL-E, gemaakt door EleutherAI, een open-source onderzoekscollectief. Dalle-mini gebruikt slechts 6 miljard parameters, vergeleken met de 12 miljard van DALL-E, en het kan op één enkele GPU draaien. Dalle-mini gebruikt ook een andere tokenizer en vocabulaire voor de tekstinvoer, waardoor het meer compatibel is met verschillende talen en domeinen:

Opmerking : Gebruikers kunnen gratis afbeeldingen genereren met de Dalle-mini door de koppeling .

Wat is de werking van Dalle-mini?

Het belangrijkste idee achter Dalle-mini is de kracht van transformatoren, dit zijn neurale netwerken. Ze kunnen langeafstandsafhankelijkheden en complexe patronen in sequentiële gegevens, zoals tekst of afbeeldingen, leren.

Transformatoren bestaan uit twee hoofdonderdelen: een encoder en een decoder. Het eerste deel neemt een invoer (een tekstbeschrijving) en verandert deze in verborgen vectoren. Daarna neemt de decoder het en genereert een uitvoer (een afbeelding) die relevant is voor de invoer.

Wat is het verschil tussen Dalle-mini en DALL-E?

De Dalle-mini en DALL-E gebruiken een gedeelde encoder-decoderarchitectuur voor zowel tekst als afbeeldingen. Ze kunnen beide modaliteiten coderen en decoderen met behulp van hetzelfde netwerk. Hierdoor kunnen ze een gemeenschappelijke latente ruimte leren die de semantische relatie tussen tekst en afbeeldingen vastlegt. Daarna kunnen ze cross-modale generatie uitvoeren, zoals het maken van afbeeldingen van tekst of vice versa.

Hoe werkt Dalle-mini?

Om een afbeelding te genereren uit een tekstbeschrijving, tokeniseert Dalle-mini eerst de tekst met behulp van een byte-pair codering (BPE) algoritme, dat de tekst opsplitst in subwoordeenheden op basis van hun frequentie en gelijktijdig voorkomen:

Laten we de interne werking van Dalle-mini in detail bekijken:

Interne werking van Dalle-mini

Laten we aannemen dat het woord ' spelen ” kan worden opgesplitst in “ pla ' En ' ying ”. De tokens worden vervolgens toegewezen aan numerieke ID's met behulp van een vocabulaire van 8192 tokens. De ID's worden in de encoder ingevoerd, waardoor een latente representatie van 256 x 64 wordt geproduceerd:

De decoder neemt vervolgens de latente representatie en genereert een afbeelding van 256 x 256 pixels. De decoder gebruikt een autoregressief proces, wat betekent dat het elke pixel één voor één genereert, afhankelijk van de vorige pixels en de latente representatie.

Hoe een afbeelding genereren uit een tekstbeschrijving met behulp van Dalle-mini?

Om een tekstbeschrijving van een afbeelding te genereren met behulp van Dalle-mini, voert u de tekst in het promptvenster in. Typ bijvoorbeeld ' Een schilderij van willekeurige bloemen ” in de prompt en druk op de “ Loop ' knop:

De uitvoer laat zien dat Dalle-mini relevante afbeeldingen heeft gegenereerd volgens de invoertekst.

Conclusie

Dalle-mini is een opmerkelijk model dat het potentieel van transformatoren voor cross-modale opwekking aantoont. Ze kunnen realistische en diverse afbeeldingen maken van beschrijvingen in natuurlijke taal, evenals coherente en relevante teksten van afbeeldingen. Ze kunnen ook complexe composities aan, zoals het combineren van meerdere objecten of attributen in één afbeelding of tekst. Dit artikel heeft de Dalle-mini en zijn werking in detail uitgelegd.

Wat is de Dalle-mini en hoe werkt het?