Ein praktischer Hack.
Ich war natürlich zu faul alle hundertnochwas Links sukzessive zu besuchen, um dann die Seite und Nachbarseiten abzugrasen, überall mit Ctrl-F nach OOXML zu suchen, oder alle URLs bei Google manuell einzugeben.
Zum Glück besitze ich einen Computer, mit dem man solche Aktionen teilweise automatisieren kann.
Zuerst grabschte ich mir die Übersichtsseite mit wget:
wget -l2 http://www.nomina.de/openxml/portal_lk.php
Leider kam wget nicht damit klar, daß die weiterführenden Links mit CSS realisiert sind ...
a class ="portal" href="software-erp-pps-systeme-fertigungsorganisation-zeitwirtschaft-06000000.html
- oder ich kam nicht mit wget zurecht - wie man's nimmt. ☺
Auch die zweite Seite wurde von wget nur ohne Folgelinks gespeichdert:
wget -l2 http://www.nomina.de/openxml/software_liste.php
Da mir auf der Shell unangenehme schwarze Fragezeichen auf einem weißen Sechseckgrund für Umlaute auftauchten wandelte ich mit iconv das Dateiformat in UTF-8 um:
iconv -f LATIN1 -t UTF-8 software_liste.php -o software_liste.txt
Dann suchte ich mit grep die Zeilen, die den Link enthielten, schnitt mit sed den Link aus, und ...
for s in $(cat software_liste.txt | grep "Software Profil" | sed 's/.*a href="//g;s/">Software Profil.*//g');
do
f=$(echo $s | sed 's/.*par//')
wget -l1 http://www.nomina.de/openxml/$s -O $f
done
... jetzt hatte ich 161 Dateien mit Namen =001168.html, =043236.html, =055803.html usw. auf dem Rechner - sagte ich, daß ich extra ein neues Verzeichnis angelegt und darein gewechselt bin?
Die Gleichheitszeichen hätte ich mit mehr Obacht beim sed-Kommando vermeiden können, aber wozu gibt es rename?
rename 's/=//' *
Und wieder ISO-Latin-1 - Format in UTF-8 umwandeln:
for f in 0* ; do iconv -f LATIN1 -t UTF-8 -o $f.html $f ; done
Die Jubelstatements waren ja einheitlich, vermutlich automatisch formatiert, und ebenso automatisch lassen sie sich also aus den Jubelseiten herausfiltern:
grep statement *.html | sed 's/.*<DIV id="statement">//;s#</DIV>.*##' | sort > statements.txt
Ich hatte ja erwartet, daß es überhaupt nur ein halbes Dutzend vorgefertigte Statements gibt, die sich allenthalben wiederholen.
Dem war aber nicht so.
Zwar wiederholen sich manche Statements, aber dann sind sie immer vom gleichen Autoren - meist einem Geschäftsführer - die die Gelegenheit genutzt haben, mehrere Produkte in unterschiedlichen Kategorien vorzustellen.
Auch viele Buzzwords wiederholen sich - besonders unangenehm fiel mir "Lösungen" auf.
grep -i lös statements.txt
"Die Integration von Open XML in unsere Lösungen entspricht dem Bedarf unserer Kunden.", Norbert Barnikel, Geschäftsführer
"Die Zeiten langsamer und fehlerträchtiger Officelösungen ist durch OpenXML endgültig passe.", Gunter Reitberger, System Architect
"Eine moderne Faxlösung für Microsoft-Umgebungen muss die Verarbeitung von Open XML-Dokumenten unterstützen.", Jochen Klein, Leiter Software-Entwicklung
"Open XML bietet uns größtmögliche Flexibilität bei der plattformübergreifenden Integration unserer Business-Lösungen in dokumentenbasierende Geschäftsprozesse.", Nils Langemann, Geschäftsführer
"Open XML bietet uns größtmögliche Flexibilität bei der plattformübergreifenden Integration unserer Business-Lösungen in dokumentenbasierende Geschäftsprozesse.", Nils Langemann, Geschäftsführer
"Open XML bringt den Vorteil der nahtlosen Integration verschiedener Lösungen. Eine Art Zusammenarbeit entsteht dadurch.", Andreas Bortoli, Geschäftsführer
"Open XML dient uns dazu, unsere Standardlösungen in heterogene IT-Umfelder integrieren zu können und auch den Fiskus mit bestimmten geforderten Recherchemöglichkeiten zu unterstützen.", Michael Walz, Geschäftsführer Entwicklung
"Open XML ist ein wichtiges Standardformat, das wir in unseren Lösungen z. B. für die Archivierung, den Import und den Export von Dokumenten unterstützen.", Franz Mattes, Leiter Marketing & Vertriebden Export von Dokumenten unterstützen.", Franz Mattes, Leiter Marketing & Vertrieb
"Vor allem in heterogenen Umgebungen wie z.B. in Krankenhäusern und Laborunternehmen ist eine Software-Lösung basierend auf Open XML sehr effizient und kostensparend - Ein sehr sinnvoller Einsatzbereich anstatt teuerer und unqualifizierter Schnittstellentechnik.", Bernd Krautter, Geschäftsinhaber
"Wir favorisieren Open XML im Handel, welche für uns als moderne und flexible Lösung eine bessere Integration als EDIFACT darstellt." Ralf Stüer, Geschäftsführer
"Wir nutzen in unseren Lösungen OpenXML-Dokumente einerseits als Datenquellen wie auch als Berichtsformate.", Bernd Dersch, Geschäftsführer
"Wir richten unsere Strategie konsequent auf plattformunabhängige und webbasierte Lösungen aus, da wir unsere Kunden auf diese Weise ein Höchstmaß an Flexibilität bieten können.", Andre Keller, Geschäftsführer
"Wir setzen auf Open XML in Microsoft Office System 2007 und Micrososft Office Sharepoint Server 2007 um eine bessere Integration und Interoperabilität unserer Lösungen zu erreichen.", Hermann Ascherl, Geschäftsführer
"Wir setzen auf Open XML, um unsere Lösungen besser für andere Anwendungen zu öffnen.", Eckart E. Glüer, Vorstand
"Wir setzen auf Open XML, um unsere Lösungen besser für andere Anwendungen zu öffnen.", Eckart E. Glüer, Vorstand
"Wir setzen auf Open XML, weil wir damit sehr effizient hochwertige Office-Dokumente für unsere Kunden anbieten können. Dies ist ein echter Mehrwert gerade für komplexe Berichtslösungen.", Robert Hitzelberger, Entwicklungsleiter
"Wir setzen Open XML ein, damit unsere Software in andere Software-Lösungen integriert werden kann.", Winfried Babinsky, Geschäftsführer
"Wir setzen Open XML ein, damit unsere Software in andere Software-Lösungen integriert werden kann.", Winfried Babinsky, Geschäftsführer
"Wir setzen Open XML ein, für die bestmögliche Integration unserer Lösungen.", Christian Hauschild, Geschäftsführer
"Wir setzen Open XML ein, um auf Standards zu setzen und eine bessere Integration unserer Lösung sicherzustellen.", Ingo Weyel, Geschäftsführer
"Wir setzen Open XML ein, um auf Standards zu setzen und eine bessere Integration unserer Lösung sicherzustellen.", Ingo Weyel, Geschäftsführer
"Wir setzen Open XML ein, um eine bessere Anbindung unserer Lösungen an Zentralsysteme zu ermöglichen.", Rupert Armbruster, Projektleitung
"Wir setzen Open XML ein, um eine bessere Integration unserer Lösungen mit der Microsoft Office-Suite zu ermöglichen.", Jörn Bülow, Vorstand
"Wir setzen Open XML ein, um eine bessere Integration unserer Lösungen zu ermöglichen.", Dr. M. Kuhn-Lücker, Geschäftsführer
"Wir setzen Open XML ein, um unsere Lösungen bestmöglich zu integrieren und dies auch in Zukunft zu gewährleisten.", Daniel Faust, Geschäftsführer
"Wir setzen Open XML ein, weil wir seit Jahren auf die Microsoft Technologien aufbauen und diese als Basis zugunsten der Kundenzufriedenheit in unsere Lösungen integriert werden.", Marcus Hüttmann, Geschäftsführer
"Wir setzen Open XML ein, weil wir seit Jahren auf die Microsoft Technologien aufbauen und diese als Basis zugunsten der Kundenzufriedenheit in unsere Lösungen integriert werden.", Marcus Hüttmann, Geschäftsführer
Naja 27 mal Lösungen - gefühlte 72 mal.
Was aber auffällt, ist die einheitliche Schreibung.
Je 2 Einträge von 2 Autoren schreiben vom Microsoft-Open-XML-Standard, bzw. vom Open-XML-Format.
Alle anderen schreiben einheitlich "Open XML".
Das zweite O für Office ist wohl einer Marketingüberlegung zum Opfer gefallen, denn offene XML-Formate gibt es wie Sand am Meer.
Wird das Format nicht einheitlich, wiedererkennbar benannt, so läßt sich im Web auch nicht gezielt danach suchen. Dazu komme ich noch.
Die Leute werden mit irrelevanten Ergebnissen zugeschüttet.
Aber ich will mich nicht in Details verlieren.
Aus den Jubelperserseiten die Firmenurls extrahieren:
grep "Homepage" *.html | sed 's/.*Homepage://;s#</A>.*##;s/.*www/www/' | grep -v "target=" | sort -u > homepages.lst
... um dann alle URLs zu prüfen.
Mit site:foo.bar.net kann man die Suche auf bestimmte URLs eingrenzen.
Den Suchstring lasse ich mir natürlich von der 'advanced Search' zusammenbasteln, und kopiere sie mir aus der Adressleiste des Browsers.
Es soll ja Leute geben, die die Adressleiste des Browsers ausblenden - wieso auch immer.
Mein Kommando geht also alle URLs durch, und setzt sie in die Suche ein:
for s in $(cat homepages.lst)
do
wget -l1 --user-agent="" -O google.$s.html "http://www.google.com/search?aq=t&oq=&complete=1&hl=en&safe=off&q=%22Open+XML%22+OR+%22OO+XML%22+OR+OOXML+OR+openxml+site%3A"$s"&btnG=Search"
done
Es bleiben noch 111 Seiten übrig, die anderen 50 Einträge stammen also von Firmen, die mehr als einen Eintrag hatten.
Wenn man nach wirklich abwegigen Dingen sucht, dann antwortet Google mit einem "Your search - xyz - did not match any documents."
Also kann man leere Ergebnisse leicht ausfiltern:
grep "did not" google.www.* | sed 's#.*openxml site:##;s#documents. .*#documents.#' > no-documents.lst
Und nun die spannende Frage: Für wieviele URLs findet Google keine Treffer?
wc -l no-documents.lst
105 no-documents.lst
Und die Gegenprobe:
grep -L "any document" go*.html | wc -l
6 Suchen - immerhin - doch dazu später.
Vorläufig halte ich fest:
161 Produkte, um nicht zu sagen Lösungen werden beworben, die alle die Vorteile von OfficeOpenXML loben.
Und auf gerade mal 6 Seiten findet man OOXML überhaupt erwähnenswert?
Das riecht doch ein wenig unangenehm nach Gefälligkeitsaussagen, die mit wirklichen Fakten wenig zu tun haben.
"Get the facts!" möchte man rufen.