Künftig auch PDF-Files über Google-Suchmaschine abrufbar Options
von
norma1 vom
31.10.2020 - 309 Hits -
Dank optischer Zeichenerkennungstechnologie (OCR) wird Google in Zukunft auch den umgewandelten Text von PDF-Files in seinen Suchergebnissen anzeigen können.
Wie am Donnerstag bekannt wurde, hat Google jetzt damit begonnen, elektronische Kopien von gescannten Dokumenten wie PDF-Files zurück in digitalen Text zu verwandeln.
Produktmanager Evin Levey von Google erklärte dazu, dass gescannte Dokumente bisher kaum in den Suchergebnissen angezeigt worden sind. Bisher gibt es höchstens einen kurzen Hinweis auf ein bestimmtes Dokument, aber ohne einen Textausschnitt, der die Suchanfrage unterstützen könnte. Das soll sich jetzt ändern. Mithilfe optischer Zeichenerkennung kann Google jedes gescannte Dokument umwandeln, das in Adobe als PDF-Format vorliegt.
Der umgewandelte Text läßt sich in den Suchergebnissen über den „als HTML anzeigen-Link“ (View as HTML) abrufen. Andere Suchmaschinen bieten den Link entweder nicht an oder zeigen über diesen Link nur leere Seiten an.
Wie Levey hinzufügte, sei Google damit einen kleinen, aber wichtigen Schritt bei seinem erklärten Ziel vorwärtsgekommen, jede existierende Information zugänglich zu machen.
Allerdings muß man sich nach wie vor die Mühe machen, den PDF-File zu öffnen, falls darin Bilder oder Diagramme enthalten sind, denn während Text problemlos angezeigt wird, ist das bei Grafiken zum gegenwärtigen Zeitpunkt nicht der Fall.
Und auch vertrauliche Informationen wie z.B. Sozialversicherungsnummern, die bisher in Scans von Gerichtsakten kaum aufzufinden waren, könnten jetzt durch die Google-Suchmaschine an die Öffentlichkeit gelangen. So fand Public.Resource.org aus 2,5 Millionen Gerichtsakten etwa 1700 Dokumente mit Sozialversicherungsnummern.
In Zeiten, in denen Datenklau ein höchst sensibles Thema ist, wird sich Google vermutlich auch dazu Gedanken machen müssen, doch wer sich das Ziel stellt, sämtliche Informationen erhältlich machen zu wollen, muss mit solchen Problemen rechnen.