Calais 2.0:
Semantischer Baukasten für Blogger und Verleger

Markus Spath, 20. Mai 2008 14:02 Uhr, 5 Kommentare Kommentare

Calais, das semantische Toolkit von Reuters, liegt nun in Version 2.0 vor. Blogger, Publisher und Entwickler bekommen damit die Möglichkeit, ihre Texte oder Anwendungen automatisiert mit Metadaten anzureichern.

Zur Erinnerung: vor ein paar Tagen hat Yahoo SearchMonkey gestartet, welches Webseitenbetreibern die Möglichkeit gibt, die Anzeige der Suchergebnisse auf Basis von semantischen Metadaten zu verbessern. Es ist nicht schwer die Nützlichkeit davon zu erkennen, allein: woher diese semantischen Metadaten nehmen und nicht stehlen? Dass man einige coole Dinge machen könnte, wenn Texte semantisch annotiert wären, weiß man schon lange. Die Verbreitung wurde bis dato eher durch die damit verbundenen Kosten für die Erstellung und Pflege der Metadaten behindert.

Calais verspricht dieses Problem zu lösen. Calais ist ein ‘semantisches’ Toolkit von Thomson Reuters, mit dem sich Blogs, andere Content-Angebote und Anwendungen, die Texte prozessieren, automatisiert mit semantischen Ergänzungen anreichern lassen.

Calais
Metadaten von Calais

Passend zu unserer Vorstellung von SearchMonkey gibt es Calais Marmoset. Ohne höhere Programmierkenntnisse kann man damit die eigene Webseite mit Microformaten versehen. Man fügt ein paar Zeilen PHP ein, und wann immer ein Crawler, der Microformate versteht, die eigene Seite besucht, injiziert Calais das zusätzliche Markup. Alle anderen Besucher bekommen die Seite unverändert ausgeliefert.

Aber es ist mehr als ein Zusatz für Suchmaschinen. Calais ist eine Plattform, die sich für die unterschiedlichsten Anwendungsfälle als Mehrwertlieferant positionieren will.

Über die APIs des Calais Web Service etwa können Entwickler programmatisch auf alle Funktionen von Calais zugreifen. Dabei schicken sie unstrukturierten Text und bekommen ihn annotiert mit RDF, Microformaten oder mit anderen Fakten und Ereignissen wieder zurück. Derzeit können pro Tag bis zu 40.000 Anfragen gestellt werden, auch die kommerzielle Nutzung ist erlaubt.

Ein anderes Beispiel ist ein Pluging für WordPress, das den schönen Namen Tagaroo trägt. Tagaroo schlägt für Einträge Tags und zum Thema passende Photos aus flickr vor, die dann mit einem Klick übernommen werden können. Für Drupal gibt es ein ähnliches Plugin.

Laut ReadWriteWeb hat Calais in der neuen Version auch spürbare Fortschritte bezüglich der Themen gemacht, für die Calais brauchbare Ergebnisse generiert. Nachdem zuvor eher der Kontext Wirtschaft abgebildet wurde, werden nun auch die Bereiche Popkultur, Medien, Unterhaltung, Sport und Medizin erschlossen.

Fazit

Seit mehreren Jahren schon sind wir laut der einschlägigen Berichterstattung vom semantischen Web immer nur einen Katzensprung entfernt. Nur wurde dieser Sprung dann nie gemacht. Und auch trotz SearchMonkey, Calais, der zunehmenden Verbreitung von Microformaten und vielen anderen aktuellen Interventionen sollte man das neue Zeitalter nicht zu früh einläuten. Dennoch stehen die Chancen diesmal besser, weil die Anreize dafür immer grösser und die Kosten immer niedriger werden.

Gleichzeitig stiften einige dieser Möglichkeiten ganz konkreten Nutzen, egal ob sie aus hehrer Sicht als ‘semantisches Web’ wie es sein sollte eingestuft werden oder nicht. Viele Ansätze sind bisher daran gescheitert, dass sie Rahmenbedingungen erforderten (das Web muss erst mal richtig und vollständig mit RDF Tupeln durchmarkiert sein), die einfach nicht gegeben waren.

» Weitere Meldungen lesen.

» Nächster Artikel: Google startet Google Health
» Älterer Artikel: Linkwertig: MP3-Shop Zero” verzichtet auf Long Tail

» Drucken
» Merken/E-Mail

5 Kommentare zu diesem Artikel

  1. mbo

    schrieb am 20. Mai 2008 um 18:45 Uhr (#)

    Leider ist OpenCalais bisher nur für die englische Sprache ausgelegt. Aus Neugier habe ich trotzdem mal vor ein paar Wochen einen kleinen Aggregator mit englischen Quellen gebastelt: http://drigger.com

    Unter http://drigger.com/e/400/Barack_Obama erkennt man vielleicht mehr.

    Und um Searchmonkey auch noch Mehrwert zu liefern, wurde das Ganze noch durch RDFa erweitert. Leider nutzt Yahoos Searchmonkey RDFa noch nicht, erst wenn die Spezifikation stabiler ist. Worauf ich dann mal gespannt bin.

  2. mds

    schrieb am 22. Mai 2008 um 00:05 Uhr (#)

    @Markus: Ich hoffe, Blogwerk erlaubt Dir früher oder später das Speichern von Bildern auf dem netzwertig.com-Server – dann musst Du Deine Bilder nicht mehr bei hackr.de ablegen … :->

  3. Markus Spath

    schrieb am 22. Mai 2008 um 04:05 Uhr (#)

    @MBO nett. Wenn Du ungeduldig bist und nicht auf ein Zusammenspiel out-of-the-box warten willst, könntest Du Dir in SearchMonkey einen interims Custom Data Service bauen, der halt nur ein Subset davon auswertet.

    @MDS Blogwerk erlaubt mir das schon, aber unsere Version von Wordpress leider nicht. Wir kennen das Problem, trotzdem danke für den Hinweis.

  4. Ralf

    schrieb am 23. Mai 2008 um 17:40 Uhr (#)

    Bei Netbreeze verfolgen wir die Open Calais Entwicklung natürlich auch mit.
    So genannte Named Entity Extractions (Extraktion von Personen-, Firmennamen etc. aus Texten)
    sind ein relevanter Bestandteil unserer Software – dementsprechend aktiv sind wir auf diesem
    Gebiet.

    Unsere Computerlinguisten arbeiten hauptsächlich mit dem GATE Framework, einem open-source Projekt
    der Uni Sheffield. Nebst anwendungsspezifischen Erweiterungen sind wir auch an der Entwicklung
    der Mehrsprachigkeit interessiert und beteiligt. Dazu gehören sowohl europäische wie auch asiatische
    Sprachen.

    Open Calais 2.0 macht von der Qualität der Extraktionen her einen recht guten Eindruck.
    Gut möglich, dass wir den Service in Zukunft in einige unserer englischsprachigen Applikationen
    integrieren werden.

    Ueber Netbreeze: Wir sind ein Startup, welches seit 2002 Business Applikationen im Bereich
    Information Search / Aggregation / Visualisation für Webdaten entwickelt. Unsere Kunden kommen
    aus so unterschiedlichen Bereichen wir der Finanzwelt oder der Marktforschung, und nützen
    die Netbreeze Software für Customer Management, Early Warning, Brand Monitoring und weiteres.

  5. Ralf

    schrieb am 23. Mai 2008 um 17:46 Uhr (#)

    Sorry – die vielen linebreaks im obigen Kommentar waren nicht vorgesehen.


1 Trackback

  1. Samstag App Fieber: co2map, evenzio, pagetweet » netzwertig.com
    (11. April 2009 13:13)

Diesen Artikel kommentieren

Wir sind sehr an einer offenen Diskussion interessiert, behalten uns aber vor, beleidigende Kommentare sowie solche, die offensichtlich zwecks Suchmaschinenoptimierung abgegeben werden, zu editieren oder zu löschen. Mehr dazu in unseren Kommentarregeln.

Oder verbinde dich mit deinem Facebook-Account