{"id":21714,"date":"2023-09-01T11:04:38","date_gmt":"2023-09-01T11:04:38","guid":{"rendered":"https:\/\/smartextract.ai\/?p=21714"},"modified":"2024-01-26T14:07:02","modified_gmt":"2024-01-26T14:07:02","slug":"pytesseract","status":"publish","type":"post","link":"https:\/\/smartextract.ai\/en\/pytesseract\/","title":{"rendered":"Pytesseract: Wie man Bilder in Text umwandelt mit Python [Tutorial]"},"content":{"rendered":"<p>In der heutigen \u00c4ra der Datenverarbeitung und Automatisierung gewinnt die F\u00e4higkeit, Text aus Bildern zu extrahieren, zunehmend an Bedeutung. Hierbei spielt die optische Zeichenerkennung (OCR) eine zentrale Rolle. Pytesseract, eine Python-Bibliothek, die auf Googles Tesseract-OCR basiert, erm\u00f6glicht eine nahtlose Integration von Texterkennungsfunktionen in Python-Anwendungen. In diesem Artikel werfen wir einen genaueren Blick auf Pytesseract, seine Installation, Konfiguration und Verwendung, um pr\u00e4zise Texterkennung in Bildern zu erm\u00f6glichen.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"was-ist-pytesseract\">Was ist Pytesseract?<\/h2>\n\n\n\n<p>Pytesseract ist eine leistungsstarke Python-Bibliothek, die auf Tesseract-OCR basiert und die M\u00f6glichkeit bietet, Text aus Bildern zu extrahieren. Tesseract-OCR ist eine Open-Source-Software, die von Google entwickelt wurde und auf optischer Zeichenerkennung (OCR) basiert. OCR erm\u00f6glicht es Computern, Text aus Bilddateien zu erkennen und in editierbaren Text umzuwandeln. Pytesseract erleichtert die Verwendung von Tesseract-OCR in Python-Anwendungen, indem es eine benutzerfreundliche Schnittstelle f\u00fcr die Texterkennung bietet.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"text-aus-bild-herauslesen-mit-pytesseract-schritt-fur-schritt\">Text aus Bild herauslesen mit Pytesseract &#8211; Schritt f\u00fcr Schritt<\/h2>\n\n\n\n<p>Die Verwendung von Pytesseract, um Text aus einem Bild auszulesen, ist relativ einfach. Hier sind die grundlegenden Schritte, die du befolgen kannst:<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"tesseract-unter-windows-installieren\">Tesseract unter Windows installieren<\/h3>\n\n\n\n<p>Urspr\u00fcnglich f\u00fcr Linux entwickelt, steht Tesseract-OCR dank einer Initiative der Universit\u00e4t Mannheim nun auch f\u00fcr Windows zur Verf\u00fcgung. Insbesondere wird Tesseract von der Universit\u00e4t Mannheim genutzt, um historische deutsche Zeitungen zu verarbeiten. Sie k\u00f6nnen den Windows-Installer f\u00fcr Tesseract auf GitHub herunterladen. Hier der Link: <a href=\"https:\/\/github.com\/UB-Mannheim\/tesseract\/wiki\" target=\"_blank\" rel=\"noopener\">https:\/\/github.com\/UB-Mannheim\/tesseract\/wiki<\/a><\/p>\n\n\n\n<p>Dieser Installer erm\u00f6glicht Ihnen eine einfache und reibungslose Installation von Tesseract-OCR auf Ihrem Windows-System, um die Texterkennungsfunktionen mit Pytesseract nutzen zu k\u00f6nnen.<\/p>\n\n\n\n<p><strong>Hinweis<\/strong>: Falls das deutsche Sprachpaket noch nicht w\u00e4hrend der Tesseract-Installation eingeschlossen wurde, ist es notwendig, dieses separat zu installieren. Hierf\u00fcr wird die Trainingsdaten f\u00fcr die deutsche Sprache ben\u00f6tigt, die heruntergeladen und anschlie\u00dfend in das Verzeichnis \u201atessdata\u2018 kopiert werden m\u00fcssen. Dieses Verzeichnis befindet sich beispielsweise unter &#8220;C:\\Program Files (x86)\\Tesseract-OCR\\tessdata&#8221;. Die Trainingsdaten f\u00fcr diverse Sprachen, einschlie\u00dflich Deutsch, sind auf folgender Webseite zu finden: <a href=\"https:\/\/github.com\/tesseract-ocr\/tessdata\/blob\/main\/deu.traineddata\" target=\"_blank\" rel=\"noopener\">https:\/\/github.com\/tesseract-ocr\/tessdata\/blob\/main\/deu.traineddata<\/a><\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"installation-von-pytesseract\">Installation von Pytesseract<\/h3>\n\n\n\n<p>Nach der Installation von Tesseract auf Ihren Betriebssystem m\u00fcssen wir noch \u00fcber den Paketmanager pip die Module \u201cImage\u201d und \u201cpytesseract\u201d installieren.<\/p>\n\n\n\n<pre class=\"wp-block-code has-small-font-size\"><code lang=\"python\" class=\"language-python\">pip install Image\npip install pytesseract<\/code><\/pre>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"module-importiere\">Module importiere<\/h3>\n\n\n\n<p>Importieren Sie die erforderlichen Module in Ihrem Python-Code.<\/p>\n\n\n\n<pre class=\"wp-block-code has-small-font-size\"><code lang=\"python\" class=\"language-python\">try:\n    from PIL import Image\nexcept ImportError:\n    import Image\n\nimport pytesseract<\/code><\/pre>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"pfad-zu-tesseract-ocr-angeben\">Pfad zu Tesseract-OCR angeben<\/h3>\n\n\n\n<p>Geben Sie den Pfad zur Tesseract-OCR-Installation an, damit Pytesseract die ausf\u00fchrbare Datei finden kann.<\/p>\n\n\n\n<pre class=\"wp-block-code has-small-font-size\"><code lang=\"python\" class=\"language-python\"># Passen Sie den Pfad entsprechend Ihrer Installation an\n\npytesseract.pytesseract.tesseract_cmd = r'C:\\Program Files\\Tesseract-OCR\\tesseract.exe'\n<\/code><\/pre>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"bild-eingeben\">Bild eingeben<\/h3>\n\n\n\n<p>Laden Sie das Bild, aus dem Sie den Text extrahieren m\u00f6chten, mit der Python Imaging Library (PIL).<\/p>\n\n\n\n<pre class=\"wp-block-code has-small-font-size\"><code lang=\"python\" class=\"language-python\">image = Image.open('Ihr_Bild.png')<\/code><\/pre>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"texterkennung-durchfuhren\">Texterkennung durchf\u00fchren<\/h3>\n\n\n\n<p>Nutzen Sie die <em>image_to_string()<\/em> Methode von Pytesseract, um den Text aus dem Bild zu extrahieren:<\/p>\n\n\n\n<pre class=\"wp-block-code has-small-font-size\"><code lang=\"python\" class=\"language-python\"># Geben Sie den extrahierten Text aus:\n\nextrahierter_text = pytesseract.image_to_string(image)\n\n\nprint(extrahierter_text)\n<\/code><\/pre>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"beispiel-ausgabe\">Beispiel-Ausgabe<\/h3>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-large is-resized\"><img fetchpriority=\"high\" decoding=\"async\" width=\"1024\" height=\"527\" src=\"https:\/\/smartextract.ai\/wp-content\/uploads\/2023\/08\/smartextract-ocr-test-1024x527.jpg\" alt=\"Texterkennung in einem Bild mit pytesseract.\" class=\"wp-image-21716\" style=\"width:768px;height:395px\" srcset=\"https:\/\/smartextract.ai\/wp-content\/uploads\/2023\/08\/smartextract-ocr-test-1024x527.jpg 1024w, https:\/\/smartextract.ai\/wp-content\/uploads\/2023\/08\/smartextract-ocr-test-300x155.jpg 300w, https:\/\/smartextract.ai\/wp-content\/uploads\/2023\/08\/smartextract-ocr-test-768x396.jpg 768w, https:\/\/smartextract.ai\/wp-content\/uploads\/2023\/08\/smartextract-ocr-test-1536x791.jpg 1536w, https:\/\/smartextract.ai\/wp-content\/uploads\/2023\/08\/smartextract-ocr-test.jpg 1821w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/figure><\/div>\n\n\n<h2 class=\"wp-block-heading\" id=\"fazit\">Conclusion<\/h2>\n\n\n\n<p>Die Implementierung der optischen Zeichenerkennung (OCR) hat sich in der heutigen datengetriebenen Welt als essenziell erwiesen, und Pytesseract hat sich als unverzichtbares Werkzeug f\u00fcr diese Aufgabe etabliert. Die nahtlose Integration von Texterkennungsfunktionen in Python-Anwendungen macht es m\u00f6glich, Text aus Bildern pr\u00e4zise zu extrahieren und in nutzbare Daten umzuwandeln.<\/p>\n\n\n\n<p>Die F\u00e4higkeit, Texte aus Bildern zu extrahieren, er\u00f6ffnet viele M\u00f6glichkeiten zur Effizienzsteigerung und Optimierung von Arbeitsabl\u00e4ufen. Mit Pytesseract sind Entwickler in der Lage, den Wert von visuellen Daten in ihrer vollen Kapazit\u00e4t zu nutzen und innovative L\u00f6sungen zu schaffen, die auf pr\u00e4ziser Texterkennung basieren.<\/p>","protected":false},"excerpt":{"rendered":"<p>In der heutigen \u00c4ra der Datenverarbeitung und Automatisierung gewinnt die F\u00e4higkeit, Text aus Bildern zu extrahieren, zunehmend an Bedeutung. Hierbei spielt die optische Zeichenerkennung (OCR)<\/p>","protected":false},"author":6850,"featured_media":22071,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"_gspb_post_css":"","inline_featured_image":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-21714","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-blog-legacy"],"acf":[],"_links":{"self":[{"href":"https:\/\/smartextract.ai\/en\/wp-json\/wp\/v2\/posts\/21714","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/smartextract.ai\/en\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/smartextract.ai\/en\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/smartextract.ai\/en\/wp-json\/wp\/v2\/users\/6850"}],"replies":[{"embeddable":true,"href":"https:\/\/smartextract.ai\/en\/wp-json\/wp\/v2\/comments?post=21714"}],"version-history":[{"count":10,"href":"https:\/\/smartextract.ai\/en\/wp-json\/wp\/v2\/posts\/21714\/revisions"}],"predecessor-version":[{"id":23370,"href":"https:\/\/smartextract.ai\/en\/wp-json\/wp\/v2\/posts\/21714\/revisions\/23370"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/smartextract.ai\/en\/wp-json\/wp\/v2\/media\/22071"}],"wp:attachment":[{"href":"https:\/\/smartextract.ai\/en\/wp-json\/wp\/v2\/media?parent=21714"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/smartextract.ai\/en\/wp-json\/wp\/v2\/categories?post=21714"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/smartextract.ai\/en\/wp-json\/wp\/v2\/tags?post=21714"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}