Michael Osl


 

Alle 38 Artikel von Michael Osl auf netzwertig.com:

Ein umfassender Einblick in Freebase

Michael Osl, 3. April 2007 um 19.14 Uhr, 11 Kommentare Kommentare

Neulich hatte ich ja über Freebase und dessen Entwicklungspotential berichtet. Nachdem ich nun eine Einladung erhalten habe (Danke, Jutta :)) und mich intensiver mit dem Dienst beschäftigen konnte folgt hier nun ein zweiter, detaillierter Bericht, der sowohl Einblicke in den Dienst gibt, wie er sich im Moment präsentiert als auch technische Hintergründe.

freebase banner

Das Freebase-Banner

Was ist Freebase?

Freebase ist eine globale Datenbank, die das Wissen der Welt in geordneter und strukturierter Form enthält. Es geht hier also weniger um enzyklopisches Wissen das in erster Linie für den menschlichen Leser gedacht ist, sondern vielmehr um eine Sammlung von Listen, Referenzen und Datensätzen - Eine Wikipedia für Maschinen sozusagen. Der Clou an der Sache ist, dass diese Datensammlung nicht lose aneinandergereiht ist, sondern alle Daten miteinander verknüpft werden. Ein Riesen-Schritt in Richtung semantisches Web, der ultimativen Alles-mit-Allem-Verknüpfung von Daten. Tim O’Reilly vergleicht in seinem Beitrag “Freebase Will Prove Addictive” diese Verbindungen mit den Synapsen eines menschlichen Gehirnes.

Hinter dem Projekt steckt die Metaweb Technologies mit Sitz in San Francisco. Das Unternehmen Metaweb hat eine Technologie und API namens Metaweb geschaffen, auf welcher die Freebase basiert. Das Unternehmen will, laut Eigenauskunft, ihr Geld mit dieser Metaweb-Technologie verdienen.

Der Aufbau von Freebase

Das System ist vollständig objektorientiert aufgebaut. Das heißt, jedes Element in Freebase ist ein Objekt, welches bestimmte Eigenschaften besitzt und mit anderen Objekten verknüpft ist. Jedes Objekt ist einem oder mehreren Typen zugeordnet und verfügt sowohl über eine eindeutige ID als auch einen optionalen Namen. Dieser ist allerdings nicht eindeutig und ist in erster Linie für Menschen gedacht.

Objekte, die dafür für den menschlichen Leser von Interesse sein können, werden “Topics” genannt. Diese bieten einem Objekt zum Beispiel die Möglichkeit, es mit Bildern aufzupeppen.

Die Typen selber sind in Domains hirarchiert, in der Typen ähnlicher Gebiete gruppiert werden. Derzeit gibt es Domains wie beispielsweise /business, /people oder /sports.

freebase_domains.gif

Natürlich würden einem diese einzelnen Objekte herzlich wenig nützen. Das Salz in der Objektsuppe sind die vielfältigen Verknüfpungen der Objekte zueinander. So ist Beispielsweise “Wien” mit “Österreich” genau so verknüpft wie “Arnold Schwarzenegger”, der aber auch mit dem Film “Terminator” verknüpft ist usw. Dadurch ergibt sich letztendlich eine riesige Wolke an Verknüpfungen.

freebase screenshot1

Hier ist das Objekt “Austria” geöffnet. Es gehört den beiden Typen “Location” und “Country” an.

Mehrsprachigkeit

Ein großer Pluspunkt ist, dass die Mehrsprachigkeit von Beginn an vorgesehen ist, gerade bei US-amerikanischen Diensten ist das nicht immer eine Selbstverständlichkeit. Die Mehrsprachigkeit ist konkret so implementiert, dass die Bezeichner der einzelnen Objekte in mehrern Sprachen hinterlegt sein können - was ja auch logisch ist. Mailand ist ja schließlich auch im englischen Sprachraum die zweitgrößte Stadt von Italien, auch wenn dort die Stadt “Milan” und das Land “Italy” genannt wird. Hier sehe ich auch Potential für semantische Übersetzungstools, welche Anhand des Kontexts die richtige Übersetzung eines Begriffes durchführen.

Lizensierung der Inhalte

Natürlich macht es wenig Spaß, Daten und Arbeit einem Unternehmen in den Rachen zu werfen, das anschließend mit den Daten machen kann, was es will.

Besonders wichtig ist es daher, dass die freie Zugänglichkeit der Daten gewährleistet ist. Im Falle der Freebase wird das durch die Lizensierung der Daten durch die Creative Commons erreicht.

Es werden allerdings drei Unterscheidungen getroffen, was die Typen von Inhalten betrifft: Zum einen die Daten als Ganzes, welche immer unter der Creative Commons Attribution license (CC-BY) lizensiert sind. Die Texte zu den einzelnen Datensätzen unterliegen entweder ebenfalls der CC-BY oder aber der GNU Free Documentation License. Die dritte Unterscheidung betrifft Medien-Daten wie Bilder usw. Diese sind in der Regel public domain, es können aber auch copyright-geschützte Bilder darunter sein, die unter die fair-use Regelung des amerikanischen Rechts fallen. Hier obligt es dem Anwender der Daten zu überprüfen, ob alle Copyrightbestimmungen eingehalten werden.

Verwendet man Daten aus der Freebase, so ist jedenfalls immer eine Namensnennung erforderlich, konkret geschieht dies durch einen Link auf www.freebase.com .

Wer soll das alles eingeben?

Dass die Masse sowohl die Eigendynamik als auch das sprichwörtliche Wissen haben kann, eine solche Datenbank zu erstellen und zu Pflegen sollte selbst den hartgesottenesten Kritikern spätestens seit der Wikipedia klar sein. Die große Kunst ist es nur, diese Masse auch zu mobilisieren.

Die Arbeit selber um einen guten Datenbestand aufzubauen besteht dabei meiner Meinung nach aus zwei Teilen: Zum einen müssen die Objekte erstmal alle Ihren Weg in die Freebase schaffen. Zum anderen müssen anschließend zwischen all diesen Objekten die Verknüpfungen hergestelllt werden.

Was den ersten Teil betrifft, also große Mengen an Grunddaten in das System zu bringen, so ist es unerlässlich, ausgereifte Importfunktionen zur Verfügung zu stellen. Der objektorientierte Ansatz kann es aber durchaus schwierig gestalten, solche Routinen zu schreiben. Ein anderer Weg, die Daten in das System zu bringen ist die API, auf die ich etwas weiter unten näher eingehe.

Der zweite Teil, das Verknüpfen der Daten, ist dagegen mit wesentlich mehr Handarbeit verknüpft. Beim Herumexperimentieren mit der Oberfläche stellt man jedoch fest, dass gerade jetzt in der Anfangsphase, in welcher sich viele Daten noch sehr lückenhaft präsentieren, die Hemmschwelle sehr gering ist, mal eben eine solche fehlende Verknüpfung herzustellen. Im Gegensatz zur Wikipedia muss man sich nämlich nicht erst grammatikalisch halbwegs sinnvolle Sätze ausdenken (was man unbedingt machen sollte bevor man einen Wikipedia-Artikel ergänzt) sondern klickt einfach ein paar mal um die Verknüfpung herzustellen und die Sache ist erledigt.

adding germany

Verknüpfungen herstellen: Hier ergänze ich im Objekt “German” das Feld “countries spoken in” um “Germany”. Natürlich habe ich anschließend noch Austria, Schweiz und Liechtenstein hinzugefügt ;)

Pflegen der Daten

Hauptsächlich gibt es derzeit ein enorm Ajax-lastiges Web-Interface, sowie eine leistungsfähige API, die hauptsächlich für die Nutzung durch automatisierte Dienste vorgesehen ist.

Das Web-Interface bietet Web 2.0 in Reinkultur: AJAX wohin das Auge blickt. Einige Dinge sind noch nicht ganz ausgereift, Metaweb schreibt sich das mit der Versionsbezeichung “alpha” gegenwärter aber auch nicht unbedingt auf die Fahnen. Es macht aber Spaß, sich durch die Oberfläche zu hanglen und ist vom ersten Ansatz her durchaus gelungen.

Die Freebase-API und Metaweb Query Language (MQL)

Die API ist über HTTP realisiert. Anfragen werden mit GET-Parametern gestellt, die Rückgabe der Daten folgt per HTTP-Response.

Die Anfragen werden mit Hilfe der “Metaweb Query Language” (MQL) formuliert. Es handelt sich hierbei um eine Abfragesprache, mit welcher die Daten dem Dienst sowohl entlockt als auch in ihm abgespeichert und verändert werden können. Die MQL orientiert sich an der bereits existierenden JSON-Syntax . Somit sollte es für die meisten Web-Entwickler keine große Hürde darstellen, sowohl die MQL-Syntax zu erlernen, als auch die Daten zu verarbeiten.

Vom Aufbau her gestaltet sich eine Anfrage immer so, dass man jene Teile eines Objektes, welche man kennt im Query angibt und jene Teile, die man abfragen möchte mit Platzhaltern versieht. Sendet man nun die Anfrage an den Server, so erhält man exakt den selben Datensatz zurück, jedoch um die fehlenden Daten ergänzt. Der Umstand, dass das Rad nicht neu erfunden wurde, sondern mit JSON auf bereits existierende Syntax aufgebaut wurde und man somit auf unzählige fertige Parser für alle erdenklichen Programmiersprachen zurückgreifen kann ist ein sehr kluger und durchdachter Schritt.

mql query

Der Query Editor - links die Abfrage, rechts das Ergebnis.

Einschränkungen der MQL

Allerdings hat die Sprache einige Einschränkungen: Oder-Bedigungen sind nur über Umwege durchzuführen und auch ausschließende Bedingungen sind nicht auf direktem Wege möglich. Dieser muss der Programmierer selber durchführen. Ein Beispiel: Man möchte alle Länder filtern, die mit “A” beginnen, aber nicht in Asien liegen. Hier muss man zwei Queries ausführen: Zuerst “Finde alle Länder mit A” und anschließend “Finde alle Länder in Asien, die mit A beginnen” um die Elemente des zweiten Queries vom ersten Ergebnis abzuziehen.

Die Metaweb Query Language bietet aber nicht nur lesenden sondern auch schreibenden Zugriff. Das heißt mit Zuhilfenahme der API können Daten auch automatisiert gepflegt und abgeglichen werden. Hier muss es natürlich Mechanismen geben, um die zwei leidigsten Themen des Web 2.0 zu verhindern: Spam und Vandalismus.

Selber experimentieren

Wer jetzt neugierig geworden ist und selber den Dienst ausprobieren möchte, für den dürfte die größte Hürde es darstellen, dass der Dienst derzeit nicht allgemein zugänglich ist. Wer aber eine Einladung ergattert, der kann sich in der Sandbox austoben. Dies ist eien 1:1 Kopie der “echten” Freebase, auf der munter experimentiert werden darf. Diese ist unter http://sandbox.freebase.com/ zu erreichen. Jede Woche werden die Daten dann neu abgeglichen.

Fazit

Die Idee einer solchen Datenbank ist unglaublich faszinierend und ein weiterer Schritt in Richtung umfassende Wissensgesellschaft. Nach der Wikipedia ist Wissen nicht nur mehr überall nachschlagbar, sondern auch jederzeit filterbar. Die Umsetzung durch Metaweb wirkt sehr rund und durchdacht und auch mit der Wahl, die Daten unter der Creative Commons zu lizensieren sind die Weichen für eine positive Entwicklung des Dienstes gestellt.

Letzten Endes ist es jedoch eine Frage die Massen des Webs zu dynamisieren und zu hoffen, dass dieser Dienst gut angenommen wird.

Dieser Beitrag wurde ursprünglich im Blog zweinull.cc veröffentlicht. Im Mai 2008 wurden zweinull.cc und netzwertig.com zusammengeführt.

Die beliebtesten 100 Web 2.0-Projekte aus Deutschland

Michael Osl, 25. März 2007 um 21.16 Uhr, 0 Kommentare Kommentare

Das “Museum of Modern Betas” listete kürzlich die 100 (weltweit) beliebtesten Web 2.0-Projekte aus Deutschland auf. Maßstab war dabei die Anzahl der Bookmarks auf del.icio.us.

Auf Platz 1 landet dabei der Screenshot-Dienst WebSnapr, gefolgt von der Site-Tour-Bibliothek Amberjack und dem Profilbild-Generator mypictr.

Dass zwei der Dienste in den Top drei davon von meinem Arbeitgeber betrieben werden, freut mich natürlich um so mehr :)

Dieser Beitrag wurde ursprünglich im Blog zweinull.cc veröffentlicht. Im Mai 2008 wurden zweinull.cc und netzwertig.com zusammengeführt.

Freebase:
Ein Dienst mit Riesen-Potential

Michael Osl, 22. März 2007 um 22.23 Uhr, 1 Kommentar Kommentare

Relativ unbeachtet (die Blogosphäre war ja mit trivialeren Dingen beschäftigt) startete unter freebase.com kürzlich ein neuer Dienst in die nicht-öffentliche Testphase der meiner Meinung nach über enormes Potential verfügt: Es werden dort gemeinsam Listen und Datenbanken erstellt - Geordnete, durchsuchbare und filterbare Daten also, die im Gegensatz also zur Wikipedia vor allem durch Maschinen nutzbar sind - was einen großen Schritt in Richtung Semantisches Web darstellen kann.

Angefangen von globalen Ortsdatenbanken mit Postleitzahlen und geographischen Positionen bis hin zu Strichcode-Sammlungen von Supermarktprodukten ist alles dabei alles denkbar und letztendlich kann auch die Wikipedia davon profitieren, wie etwa bei der Angabe von statistischen Daten zu Städten zum Beispiel. Die von den Usern erstellte Inhalte werden dabei laut den Nutzungsbedingungen unter der Creative Commons veröffentlicht - man darf also die Inhalte vervielfältigen und weiterverarbeiten, vorausgesetzt man nennt den Namen des Rechteinhabers.

Hinter dem Projekt steht die Metaweb Technologies Inc., welche im Juli 2005 von Veteranen aus bekannten Unternehmen wie Netscape, Alexa und Intel in San Francisco gegründet wurde und mit reichlich Venturekapital ausgestattet ist.

Leider kann man sich derzeit nicht registrieren, sondern muss eingeladen werden wenn man den Dienst testen möchten, deshalb hatte ich noch nicht die Möglichkeit hatte, mir das Ganze im Detail anzusehen, aber wer eine Einladung übrig hat, kann sie mir gerne zusenden ;)

Dieser Beitrag wurde ursprünglich im Blog zweinull.cc veröffentlicht. Im Mai 2008 wurden zweinull.cc und netzwertig.com zusammengeführt.

Für die ruhigen Momente im Web 2.0 …

Michael Osl, 20. März 2007 um 9.11 Uhr, 0 Kommentare Kommentare

Logo Alleinr.de

Klar bietet das Web 2.0 seine Vorzüge, aber trotzdem braucht man auch ab und zu Zeit ganz für sich alleine. Für genau diese Momente gibt es nun alleinr.de - Aber vorsicht, ist derzeit noch in der Beta-Phase ;)

Witzige Idee :)

Dieser Beitrag wurde ursprünglich im Blog zweinull.cc veröffentlicht. Im Mai 2008 wurden zweinull.cc und netzwertig.com zusammengeführt.

Twitter:
Über Nacht in aller Munde

Michael Osl, 19. März 2007 um 20.07 Uhr, 1 Kommentar Kommentare

twitter.gif

Es gibt diese unerklärlichen Phänomene im Web 2.0: Nahezu über Nacht redet plötzlich alles über einen neuen Dienst und man kann sich gar nicht so recht erklären warum. Im aktuellen Fall ist das Twitter: Es handelt sich hier um einen Web 2.0-Service, in dem man laut Eigenbeschreibung nur eine simple Frage beantwortet: “Was machst du gerade?” - dies macht man allerdings ständig. Man kann sich mit Freunden vernetzen und sieht so immer, was diese gerade machen, vorausgesetzt sie vergessen nicht, ihren Twitter-Account zu aktualisieren und sie fassen sich kurz: Die maximale Länge einer Nachricht beträgt nämlich nur 160 Zeichen.

Blickt man auf die Alexa und Technorati-Statistiken unten so lässt sich der Hype gut erkennen (obwohl er anscheinend schon wieder im Abflauen ist). Den Servern scheint die Belastung allerdings etwas zu schaffen zu machen - jedenfalls ist der Dienst im Moment nur äußerst langsam oder gar nicht zu erreichen.

Alexa:

Twitter auf Technorati (letzte 30 Tage)

Technorati Chart

Wie für einen Web 2.0-Serice üblich wird auch eine API zur Verfügung gestellt wird - und interessante Mashups haben nicht lange auf sich warten lassen, besonders hervorzuheben ist twittervision, die auf einer Google Map anzeigen, was so auf dieser Welt gerade so geschnattert wird.

Und wem (wie um ehrlich zu sein es auch bei mir der Fall ist) jetzt auf die Schnelle nicht einfällt, was das Ganze bringen soll, für den hat der Webworkblogger 17 sinnvolle Anwendungsideen für Twitter zusammengestellt. Ausprobieren werde ich den Dienst sicher mal - Meist erschließt sich einem der tiefere Sinn ja ohnehin erst durch praktische Anwendung als durch graue Theorie.

Die wesentlich interessantere Frage für mich ist allerdings, wie so ein Hype quasi über Nacht entstehen kann? Wurde dieser geschickt gelenkt (in diesem Falle: Hut ab!) oder ist dies die unkontrollierbare Eigendynamik der Blogosphäre? Also, raus damit, wer hat damit angefangen? ;)

Dieser Beitrag wurde ursprünglich im Blog zweinull.cc veröffentlicht. Im Mai 2008 wurden zweinull.cc und netzwertig.com zusammengeführt.

StudiVZ:
Vertragsstrafen für Fehlverhalten in den neuen AGBs

Michael Osl, 16. März 2007 um 11.25 Uhr, 0 Kommentare Kommentare

Die neuen AGBs von StudiVZ haben es in sich: Bei Fehlverhalten wie Angabe von falschen Daten, Anmeldung obwohl man kein Student ist (oder war) oder bei einer Doppelanmeldung soll der Benutzer eine Vertragsstrafe bezahlen und eine Unterlassungserklärung abgeben.

Besonders teuer werden “elektronische Angriffe” durch Hacker und Crawler - hier wird eine Vertragsstrafe von mindestens 6.000 Euro fällig, berichtet golem.de

Das law blog bezweifelt allerdings die Gültigkeit einer solchen Klausel.

Für “Hackangriffe” ist das noch einigermaßen nachzuvollziehen - Auch wenn diese nicht erfolgreich sind können diese durch erhöhte Serverlast hohe Kosten beim Betreiber verursachen, aber Vertragsstrafe und Unterlassungserklärung für falsche Benutzerdaten … finde ich doch etwas übers Ziel hinausgeschossen - wie wäre es einfach, in einem solchen Fall den Account zu löschen und gut ist?

Dieser Beitrag wurde ursprünglich im Blog zweinull.cc veröffentlicht. Im Mai 2008 wurden zweinull.cc und netzwertig.com zusammengeführt.

Oliver Samwer im Interview mit der FAZ

Michael Osl, 15. März 2007 um 19.33 Uhr, 0 Kommentare Kommentare

FAZ.net bringt ein interessantes Interview mit dem Internet-Unternehmer Oliver Samwer, in welchem er unter anderem sagt, dass wir uns mit Web 2.0 nicht in einer Blase, sondern einer aggressive Wachstumsphase befinden. Das Interview gibt es hier.

Dieser Beitrag wurde ursprünglich im Blog zweinull.cc veröffentlicht. Im Mai 2008 wurden zweinull.cc und netzwertig.com zusammengeführt.

web.de bringt in Kürze UndDu.de an den Start

Michael Osl, 15. März 2007 um 9.08 Uhr, 0 Kommentare Kommentare

Unter http://unddu.de/ will das Karlsruher Unternehmen web.de ab 19. April eine neue Web 2.0-Plattform lancieren. Ersten Informationen zufolge handelt es sich hierbei um ein Kontaktportal á la StudiVZ oder Xing, das jedoch im Gegensatz zu diesen nicht auf bestimmte Personenkreise zugeschnitten sein soll. Jeder Benutzer kann dabei entscheiden, wer Zugriff auf seine Seiten haben soll.

Dieser Beitrag wurde ursprünglich im Blog zweinull.cc veröffentlicht. Im Mai 2008 wurden zweinull.cc und netzwertig.com zusammengeführt.

 
blogoscoop slug