Sådan udtrækkes tekst fra PDF'er og billeder på Linux ved hjælp af gImageReader

Hvis du er studerende eller dit arbejde involverer at arbejde med mange billeder og PDF'er, ville du på et tidspunkt have følt behovet for at udtrække tekst fra et billede eller et dokument.

Heldigvis gør tekstudtrækning dette muligt. Og der er flere værktøjer, du kan bruge til at gøre dette. gImageReader er et af de mange værktøjer. Det er gratis at bruge og fungerer med både billedfiler og PDF-dokumenter.

Lad os dykke ind for at tjekke gImageReader i detaljer og se, hvordan du kan bruge den til at udtrække tekst fra billeder og PDF'er.

Hvad er gImageReader?

gImageReader er en app, der lader dig udtrække tekst fra billeder og PDF-filer på Linux. Det er i bund og grund en GUI eller front-end til Tesseract OCR-motoren, en open source motor udviklet af Hewlett-Packard, der anses for at være en af de bedste OCR-motorer, der findes.

Med gImageReader kan du nemt og ret præcist udtrække tekst fra billeder eller PDF-dokumenter med et par enkle klik. Du kan derefter eksportere den udpakkede tekst til en tekst- eller PDF-fil til videre brug.

instagram viewer

Funktioner i gImageReader

gImageReader pakker følgende funktioner:

Importer PDF-dokumenter og billeder fra forskellige kilder (disk, scanningsenheder, udklipsholder og skærmbillede)
Batchbearbejd billeder eller dokumenter, dvs. udtræk tekst fra flere billeder eller dokumenter på én gang
Genkend tekstuddrag som almindelig tekst eller hOCR-dokumenter
Indbygget stavekontrol
Automatisk registrering af tekstområde
Grundlæggende billed-/dokumentredigering
Gem output som en tekstfil

Sådan installeres gImageReader på Linux

gImageReader er tilgængelig på de fleste større Linux-distros. Men før du fortsætter med installationen, skal du installere Tesseract OCR-motoren på dit system.

For at gøre dette skal du åbne Software Manager på dit system og søg efter tesseract. Når det returnerer en liste over resultater, skal du installere tesseract-ocr og tesseract-ocr-eng pakker. Du kan også bruge kommandolinjepakkeadministratorer til at installere pakken, hvis du er mere komfortabel med terminalen.

Efter dette, tjek installationsinstruktionerne i de følgende afsnit for at installere gImageReader på din computer.

Hvis du er på Debian eller Ubuntu, skal du åbne terminalen og køre nedenstående kommandoer for at installere gImageReader:

sudo add-apt-repository ppa: sandromani/gimagereader
sudo apt-få opdatering
sudo apt installere gimagereader

På Fedora, CentOS eller Red Hat Enterprise Linux (RHEL):

sudo dnf installere gimagereader-qt

På Arch Linux eller Manjaro:

sudo pacman -S gimagereader

openSUSE-brugere kan installere gImageReader ved at bruge:

sudo zypper installere gimagereader

Hvis du bruger en anden Linux-distro, kan du bygge gImageReader fra kilden ved at følge instruktionerne på gImageReader's GitHub.

Sådan bruger du gImageReader på Linux

gImageReader er ret nem at bruge og fungerer med alle slags billedfiler såvel som PDF-dokumenter. Følg instruktionerne nedenfor for at udtrække tekst fra billeder eller PDF'er på Linux.

Åbn applikationsmenuen, søg efter gImageReader, og start appen. Tryk på Maksimer knappen i gImageReader-vinduet for at åbne det i fuldskærmsvisning.

Klik nu på Tilføj billeder knappen i venstre rude under værktøjslinjen, og brug filbrowseren til at vælge det eller de billeder eller PDF-filer, som du vil udtrække tekst fra.

Klik Okay for at importere billedet/billederne eller PDF'erne til gImageReader. Eller, hvis du vil udtrække tekst fra det, der vises på skærmen, skal du klikke på rullemenuen ved siden af Tilføj billeder knappen og vælg Tag et skærmbillede. gImageReader tager et skærmbillede af skærmens indhold.

Når du har tilføjet billedet til gImageReader, skal du klikke på Skift outputrude knap (en med notesblok-ikonet) for at få vist outputruden. Det er her den tekst, du uddrager fra billeder eller PDF'er, vises.

Afhængigt af hvordan du vil gå videre, har du nu mulighed for at identificere teksten i billedet eller PDF automatisk eller manuelt. For at gøre dette automatisk skal du klikke på Autodetekter layout knappen, og den vil fremhæve alle tekstblokkene i det valgte billede eller PDF-dokument.

Tryk derefter på Genkend markering > Aktuel side for at begynde tekstudtrækningsprocessen.

Alternativt kan du vælge teksten manuelt ved at holde markøren over den tekst, du vil udtrække, og ved hjælp af trådkorset tegne en boks rundt om det område, hvorfra du vil udtrække teksten. Tryk derefter på Genkend valget knappen for at fortsætte.

Hvis det er et PDF-dokument, og du vil udtrække tekst fra forskellige sider, skal du trykke på Plus (+) knappen for at vende siderne om.

Tryk på for at gå tilbage Minus (-) knappen. Og vælg derefter den tekst, du vil udtrække, og tryk på Genkend valget knappen for at udtrække den.

Selvom det er sjældent, kan der være tidspunkter, hvor gImageReader ville returnere den udpakkede tekst på et andet sprog end engelsk. Når dette sker, skal du blot trykke på rullemenuen ved siden af Genkend valget knappen og vælg en af de engelske muligheder.

Til sidst, for at gemme den udpakkede tekst, skal du klikke på Gem output knap. Dette åbner vinduet Gem. Her, giv et navn til filen og tryk Okay.

Hvad kan du ellers gøre med gImageReader?

Som tidligere nævnt giver gImageReader dig også mulighed for at ændre visse aspekter af de importerede billeder eller dokumenter, såsom deres lysstyrke, kontrast og opløsning. Derudover kan du også invertere farver eller rotere billederne eller dokumenterne, hvis det kræves.

De fleste af disse muligheder kan vise sig at være nyttige, når teksten i et billede eller dokument ikke er læselig for gImageReader, og derfor forhindrer værktøjet i at genkende teksten.

For at få adgang til nogen af disse redigeringsmuligheder skal du klikke på Billedkontrol knappen, og den vil afsløre en miniværktøjslinje under hovedværktøjslinjen. Herfra skal du vælge de relevante knapper for at udføre den ønskede redigering af billedet eller dokumentet.

Tekstudtrækning på Linux gjort let med gImageReader

Tekstudtrækning kræver ofte det rigtige værktøj: et, der anvender en pålidelig og nøjagtig OCR-motor, der sætter den i stand til effektivt at identificere tekst i et billede eller dokument, så du kan udtrække den effektivt uden nogen besvær.

gImageReader opnår dette godt takket være Tesseract OCR-motoren, den bruger i baggrunden. I betragtning af dens brugervenlighed er gImageReader utvivlsomt et af de bedste tekstudvindingsværktøjer til rådighed for Linux.

Alternativt, hvis du leder efter en enklere løsning, kan du tjekke TextSnatcher, som er hurtig og ret nem at bruge.

About Technology - denizatm.com

Sådan udtrækkes tekst fra PDF'er og billeder på Linux ved hjælp af gImageReader

Hvad er gImageReader?

Funktioner i gImageReader

Sådan installeres gImageReader på Linux

Sådan bruger du gImageReader på Linux

Hvad kan du ellers gøre med gImageReader?

Tekstudtrækning på Linux gjort let med gImageReader

kategorier

Recent Post

Hvorfor får jeg stadig en "indsæt sim-kort" -fejl?

Hvordan kan jeg ordne filtilknytninger og starte .exe-filer?

Hvordan kan jeg få Linux på min Macbook til at oprette forbindelse til WiFi?