Hoe Tesseract op Windows te installeren

Hoe Tesseract Op Windows Te Installeren



Tesseract is een vrij verkrijgbare open-source tekstherkenningstool, ook wel OCR (Optical Character Recognition) genoemd. Het wordt voornamelijk gebruikt om tekst uit afbeeldingen te identificeren en te extraheren. Het leest tekst uit afbeeldingsgegevens en schrijft uitvoer in een nieuw .txt-bestand. Tesseract werkt ook onder Python, omdat het voornamelijk wordt gebruikt om handschrift uit afbeeldingen te herkennen. Het maakt gebruik van het LSTR-model (Long Short Term Memory). Tesseract werkt onder de Apache 2.0-licentie.

In deze blog gaan we dieper in op de methode om Tesseract op Windows te installeren.







Dus laten we beginnen!



Hoe installeer ik Tesseract op Windows?

De Tesseract is een opdrachtregelprogramma dat wordt gebruikt voor het extraheren van tekst uit afbeeldingen. Om Tesseract op Windows te installeren, moet u de onderstaande instructies opvolgen.



Stap 1: Download Tesseract Installer





Navigeer eerst naar de onderstaande link en download het Tesseract-installatieprogramma volgens uw systeemspecificatie:

https: // github.com / UB-Mannheim / tesseract / week



Stap 2: Voer het Tesseract-installatieprogramma uit

Bezoek de ' Downloads ” map waar het Tesseract-installatieprogramma wordt gedownload. Om Tesseract op Windows te installeren, voert u het installatieprogramma van Tesseract uit door erop te dubbelklikken:

Stap 3: Selecteer taal

Veel talen worden ondersteund door het installatieprogramma van Tesseract. Om te communiceren met de gebruikersinterface van het installatieprogramma, kiest u ' Engels ” als uw taal en klik op “ Oké ”:

Stap 4: Installeer Tesseract

Als u dit doet, verschijnt de installatiewizard van Tesseract OCR op het scherm. Om de installatie van Tesseract te starten, drukt u op de ' Volgende ' knop:

Om de ' Licentieovereenkomst ', Klik op de ' Daar ben ik het mee eens ' knop:

Selecteer de ' Installeren voor iedereen die deze computer gebruikt ” optie en druk op de “ Volgende ' knop:

Als u scriptgegevens wilt toevoegen of een andere taal wilt opnemen, markeert u hun respectievelijke selectievakjes en klikt u op de ' Volgende ' knop. Omdat we daarom geen extra datascript of -taal willen, gaan we verder met de standaard geselecteerde opties:

Kies de installatielocatie en klik op de “ Volgende ' knop:

Als u geen snelkoppeling wilt maken in het menu Start, markeer dan de ' Maak geen snelkoppelingen ” selectievakje en druk op de “ Installeren ' knop:

Daarna wordt de Tesseract-installatie gestart. Wacht tot de installatie is voltooid en klik op de ' Volgende ' knop:

Klik ten slotte op de ' Af hebben ' knop:

Stap 5: Omgevingsvariabele instellen

Na de installatie moet u de omgevingsvariabele van de Tesseract instellen. Ga hiervoor eerst naar de map waar u de Tesseract hebt geïnstalleerd en kopieer het pad van de ' Adres ' bar:

Zoek op ' Omgevingsvariabelen ' in de ' Beginnen ” menu en open “ Bewerk de systeemomgevingsvariabelen ”:

Navigeer in de instellingen naar de ' Geavanceerd ” instellingenmenu en klik op de “ Omgevingsvariabelen ' knop:

Kies de ' Pad ” Variabel van de “ Systeemvariabelen ” paneel, en druk op de “ Bewerk ' knop:

Daarna ' Omgevingsvariabele bewerken ” verschijnt op het scherm. Druk de ' Nieuw ' en plak het gekopieerde Tesseract-installatiemappad hier. Klik ten slotte op de ' Oké ' knop:

Stap 6: Controleer de Tesseract-installatie

Om de Tesseract-installatie te verifiëren, opent u de Windows-opdrachtprompt door te zoeken naar ' Opdrachtprompt ' in de ' Beginnen ” menu:

Bekijk de Tesseract-versie met de opgegeven opdracht:

> tesseract --versie

De onderstaande uitvoer geeft aan dat we de Tesseract-versie met succes hebben geïnstalleerd ' v5.2.0 ” op Windows:

Laten we verder gaan om te zien hoe u Tesseract op Windows kunt gebruiken.

Hoe Tesseract op Windows te gebruiken?

De Tesseract wordt gebruikt om handschrift te lezen of tekst uit afbeeldingen te extraheren. Laten we eens kijken hoe het werkt:

Stap 1: Selecteer afbeelding

Selecteer de afbeelding waaruit u tekst wilt extraheren. Zoals we hebben gekozen “ 1.png ”:

Stap 2: Tekst uit afbeelding extraheren

Zodra de CMD is geopend. Gebruik de “ CD ” commando om de map te wijzigen waarin de afbeelding is opgeslagen. Voer vervolgens de ' tesseract ” commando en definieer de naam van het afbeeldingsbestand zoals we hebben gespecificeerd “ 1.png ”. De ' Tekst ” parameter shows geven de naam van het uitvoerbestand aan:

> CD C:\Users\anuma\OneDrive\Afbeeldingen\Opgeslagen afbeeldingen
> tesseract 1 .png 'Tekst'

Stap 3: Tekstextractie verifiëren

Om de tekstextractie te verifiëren, navigeert u naar de map waarin het afbeeldingsbestand zich bevindt. U kunt zien dat het uitvoerbestand “ Tekst ” wordt hier ook opgeslagen. Dubbelklik op het uitvoerbestand om te controleren of de tesseract de tekst uit de afbeelding heeft gehaald of niet:

U kunt zien dat we de tekst met succes hebben geëxtraheerd met behulp van de opdrachtregeltool Tesseract:

We hebben de techniek gedemonstreerd om Tesseract op Windows te installeren en te gebruiken.

Conclusie

Om Tesseract op Windows te installeren, moet u het Tesseract-installatieprogramma downloaden. Volg hiervoor de eerste sessie van dit artikel. Stel vervolgens de Path-omgevingsvariabele in om Tesseract te gebruiken en te openen vanaf de Windows-opdrachtprompt. Selecteer vervolgens het afbeeldingsbestand en gebruik de ' Tesseract ” commando om de tekst uit de afbeelding te herkennen en te extraheren. Hier heb je geleerd om zowel de ' Tesseract ” op ramen.