Google nimmt Deep Web ins Visier

Uhr | Aktualisiert
von cwe@netzwoche.ch
Mit einer grossangelegten OCR-Offensive will Google zahlreiche eingescannte PDF-Dokumente aus den Tiefen des Web ans Tageslicht befördern, dies schreibt Computerworld.ch. Beim so genannten Deep Web handelt es sich um jenen Teil des Internets, der bei einer Recherche über normale Suchmaschinen nicht auffindbar ist. Das Deep Web besteht zu grossen Teilen aus themenspezifischen Datenbanken (Fachdatenbanken) und Webseiten, die erst durch Anfragen dynamisch aus Datenbanken generiert werden. Gemäss Computerworld.ch plant Google nun eine regelrechte Texterkennungs-Offensive, bei der die abermillionen eingescannten PDF-Dokumente mit Hilfe von OCR-Software (Optical Character Regognition) analysiert werden sollen.
Tags