Thema: Freebase

 

Alle 5 Artikel zum Thema Freebase auf netzwertig.com:

Semantisches Web:
Google kauft
Freebase-Macher Metaweb

Google kauft das US-Unternehmen Metaweb, Betreiber des semantischen Datenbankdienstes Freebase. Auch Facebook experimentiert mit dem Semantischen Web. Nun wird es spannend!

Akkudo.de - Akku für Panasonic Lumix TZ6 TZ7 TZ10 — mit Infochip! Kompatibel mit allen Modellen - kostengünstiger als das Original bei vergleichbarer Qualität! Bei Akkudo.de für nur € 16,67 zzgl. Versand. — Textanzeige

Das Semantische Web ist die Zukunft für die Suche im Netz. Diese Annahme gilt seit vielen Jahren. Wirklich geschehen ist in diesem hochkomplizierten Feld bisher wenig. Während Menschen bei der Frage “Wo kaufe ich einen Jaguar” aus dem Kontext heraus verstehen, dass es sich um das Automobil und nicht um das Tier handelt, stellen sich Suchmaschinen hier bisher gezwungenermaßen dumm.

Mit semantischen Suchfunktionen soll sich das ändern. Und eine aktuelle Akquisition von Google könnte die Entwicklung der semantischen Suche weit voranbringen. Der Internetriese gab gestern Abend bekannt, das US-Unternehmen Metaweb übernommen zu haben. Eine Summe wurde nicht genannt, könnte aber angesichts von 57,5 Millionen Dollar Venturekapital, die in Metaweb gepumpt wurden, durchaus im dreistelligen Millionenbereich liegen. Metaweb betreibt die semantische Datenbank Freebase, deren Ziel es ist, das Wissen der Welt in geordneter und strukturierter Form zu sammeln.

» weiterlesen

Neues von Freebase

Freebase Logo
Mein letzter Artikel über Freebase ist nun doch schon wieder einige Monate alt. Grund genug sich anzusehen, was sich in dieser Zeit alles getan hat sowie eine aktualisierte Bewertung des Potentials von Freebase und dessen Rolle im semantischen Web vorzunehmen. Außerdem gilt es, wieder einige neue Einladungen unters Volk zu bringen.

» weiterlesen

Fünf Einladungen für Freebase zu vergeben

Heute landete eine Mail von Freebase in meinem Posteingang, in der es unter anderem heißt:

“We’ve made some good progress in alpha and would like to continue to
grow the user community with your help.

All existing Freebase users have been granted 5 additional invitations. If you know anyone you’d characterize as a ‘data fanatic’, please invite them to join.”

Wer Freebase nicht kennt, findet eine umfassende Beschreibung in meinem Artikel “Ein erster umfassender Einblick in Freebase” vom 3. April 2007.

Alle “Daten-Fanaten” (Eine etwas unglückliche Übersetzung, ich geb’s zu ;)) also, die gerne einen Blick in einen der zukunftsträchtigsten Dienste des Webs werfen möchten, senden eine Mail an moe at zweinull punkt cc.

Dieser Beitrag wurde ursprünglich im Blog zweinull.cc veröffentlicht. Im Mai 2008 wurden zweinull.cc und netzwertig.com zusammengeführt.

Ein umfassender Einblick in Freebase

Neulich hatte ich ja über Freebase und dessen Entwicklungspotential berichtet. Nachdem ich nun eine Einladung erhalten habe (Danke, Jutta :)) und mich intensiver mit dem Dienst beschäftigen konnte folgt hier nun ein zweiter, detaillierter Bericht, der sowohl Einblicke in den Dienst gibt, wie er sich im Moment präsentiert als auch technische Hintergründe.

freebase banner

Das Freebase-Banner

Was ist Freebase?

Freebase ist eine globale Datenbank, die das Wissen der Welt in geordneter und strukturierter Form enthält. Es geht hier also weniger um enzyklopisches Wissen das in erster Linie für den menschlichen Leser gedacht ist, sondern vielmehr um eine Sammlung von Listen, Referenzen und Datensätzen – Eine Wikipedia für Maschinen sozusagen. Der Clou an der Sache ist, dass diese Datensammlung nicht lose aneinandergereiht ist, sondern alle Daten miteinander verknüpft werden. Ein Riesen-Schritt in Richtung semantisches Web, der ultimativen Alles-mit-Allem-Verknüpfung von Daten. Tim O’Reilly vergleicht in seinem Beitrag “Freebase Will Prove Addictive” diese Verbindungen mit den Synapsen eines menschlichen Gehirnes.

Hinter dem Projekt steckt die Metaweb Technologies mit Sitz in San Francisco. Das Unternehmen Metaweb hat eine Technologie und API namens Metaweb geschaffen, auf welcher die Freebase basiert. Das Unternehmen will, laut Eigenauskunft, ihr Geld mit dieser Metaweb-Technologie verdienen.

Der Aufbau von Freebase

Das System ist vollständig objektorientiert aufgebaut. Das heißt, jedes Element in Freebase ist ein Objekt, welches bestimmte Eigenschaften besitzt und mit anderen Objekten verknüpft ist. Jedes Objekt ist einem oder mehreren Typen zugeordnet und verfügt sowohl über eine eindeutige ID als auch einen optionalen Namen. Dieser ist allerdings nicht eindeutig und ist in erster Linie für Menschen gedacht.

Objekte, die dafür für den menschlichen Leser von Interesse sein können, werden “Topics” genannt. Diese bieten einem Objekt zum Beispiel die Möglichkeit, es mit Bildern aufzupeppen.

Die Typen selber sind in Domains hirarchiert, in der Typen ähnlicher Gebiete gruppiert werden. Derzeit gibt es Domains wie beispielsweise /business, /people oder /sports.

freebase_domains.gif

Natürlich würden einem diese einzelnen Objekte herzlich wenig nützen. Das Salz in der Objektsuppe sind die vielfältigen Verknüfpungen der Objekte zueinander. So ist Beispielsweise “Wien” mit “Österreich” genau so verknüpft wie “Arnold Schwarzenegger”, der aber auch mit dem Film “Terminator” verknüpft ist usw. Dadurch ergibt sich letztendlich eine riesige Wolke an Verknüpfungen.

freebase screenshot1

Hier ist das Objekt “Austria” geöffnet. Es gehört den beiden Typen “Location” und “Country” an.

Mehrsprachigkeit

Ein großer Pluspunkt ist, dass die Mehrsprachigkeit von Beginn an vorgesehen ist, gerade bei US-amerikanischen Diensten ist das nicht immer eine Selbstverständlichkeit. Die Mehrsprachigkeit ist konkret so implementiert, dass die Bezeichner der einzelnen Objekte in mehrern Sprachen hinterlegt sein können – was ja auch logisch ist. Mailand ist ja schließlich auch im englischen Sprachraum die zweitgrößte Stadt von Italien, auch wenn dort die Stadt “Milan” und das Land “Italy” genannt wird. Hier sehe ich auch Potential für semantische Übersetzungstools, welche Anhand des Kontexts die richtige Übersetzung eines Begriffes durchführen.

Lizensierung der Inhalte

Natürlich macht es wenig Spaß, Daten und Arbeit einem Unternehmen in den Rachen zu werfen, das anschließend mit den Daten machen kann, was es will.

Besonders wichtig ist es daher, dass die freie Zugänglichkeit der Daten gewährleistet ist. Im Falle der Freebase wird das durch die Lizensierung der Daten durch die Creative Commons erreicht.

Es werden allerdings drei Unterscheidungen getroffen, was die Typen von Inhalten betrifft: Zum einen die Daten als Ganzes, welche immer unter der Creative Commons Attribution license (CC-BY) lizensiert sind. Die Texte zu den einzelnen Datensätzen unterliegen entweder ebenfalls der CC-BY oder aber der GNU Free Documentation License. Die dritte Unterscheidung betrifft Medien-Daten wie Bilder usw. Diese sind in der Regel public domain, es können aber auch copyright-geschützte Bilder darunter sein, die unter die fair-use Regelung des amerikanischen Rechts fallen. Hier obligt es dem Anwender der Daten zu überprüfen, ob alle Copyrightbestimmungen eingehalten werden.

Verwendet man Daten aus der Freebase, so ist jedenfalls immer eine Namensnennung erforderlich, konkret geschieht dies durch einen Link auf www.freebase.com .

Wer soll das alles eingeben?

Dass die Masse sowohl die Eigendynamik als auch das sprichwörtliche Wissen haben kann, eine solche Datenbank zu erstellen und zu Pflegen sollte selbst den hartgesottenesten Kritikern spätestens seit der Wikipedia klar sein. Die große Kunst ist es nur, diese Masse auch zu mobilisieren.

Die Arbeit selber um einen guten Datenbestand aufzubauen besteht dabei meiner Meinung nach aus zwei Teilen: Zum einen müssen die Objekte erstmal alle Ihren Weg in die Freebase schaffen. Zum anderen müssen anschließend zwischen all diesen Objekten die Verknüpfungen hergestelllt werden.

Was den ersten Teil betrifft, also große Mengen an Grunddaten in das System zu bringen, so ist es unerlässlich, ausgereifte Importfunktionen zur Verfügung zu stellen. Der objektorientierte Ansatz kann es aber durchaus schwierig gestalten, solche Routinen zu schreiben. Ein anderer Weg, die Daten in das System zu bringen ist die API, auf die ich etwas weiter unten näher eingehe.

Der zweite Teil, das Verknüpfen der Daten, ist dagegen mit wesentlich mehr Handarbeit verknüpft. Beim Herumexperimentieren mit der Oberfläche stellt man jedoch fest, dass gerade jetzt in der Anfangsphase, in welcher sich viele Daten noch sehr lückenhaft präsentieren, die Hemmschwelle sehr gering ist, mal eben eine solche fehlende Verknüpfung herzustellen. Im Gegensatz zur Wikipedia muss man sich nämlich nicht erst grammatikalisch halbwegs sinnvolle Sätze ausdenken (was man unbedingt machen sollte bevor man einen Wikipedia-Artikel ergänzt) sondern klickt einfach ein paar mal um die Verknüfpung herzustellen und die Sache ist erledigt.

adding germany

Verknüpfungen herstellen: Hier ergänze ich im Objekt “German” das Feld “countries spoken in” um “Germany”. Natürlich habe ich anschließend noch Austria, Schweiz und Liechtenstein hinzugefügt ;)

Pflegen der Daten

Hauptsächlich gibt es derzeit ein enorm Ajax-lastiges Web-Interface, sowie eine leistungsfähige API, die hauptsächlich für die Nutzung durch automatisierte Dienste vorgesehen ist.

Das Web-Interface bietet Web 2.0 in Reinkultur: AJAX wohin das Auge blickt. Einige Dinge sind noch nicht ganz ausgereift, Metaweb schreibt sich das mit der Versionsbezeichung “alpha” gegenwärter aber auch nicht unbedingt auf die Fahnen. Es macht aber Spaß, sich durch die Oberfläche zu hanglen und ist vom ersten Ansatz her durchaus gelungen.

Die Freebase-API und Metaweb Query Language (MQL)

Die API ist über HTTP realisiert. Anfragen werden mit GET-Parametern gestellt, die Rückgabe der Daten folgt per HTTP-Response.

Die Anfragen werden mit Hilfe der “Metaweb Query Language” (MQL) formuliert. Es handelt sich hierbei um eine Abfragesprache, mit welcher die Daten dem Dienst sowohl entlockt als auch in ihm abgespeichert und verändert werden können. Die MQL orientiert sich an der bereits existierenden JSON-Syntax . Somit sollte es für die meisten Web-Entwickler keine große Hürde darstellen, sowohl die MQL-Syntax zu erlernen, als auch die Daten zu verarbeiten.

Vom Aufbau her gestaltet sich eine Anfrage immer so, dass man jene Teile eines Objektes, welche man kennt im Query angibt und jene Teile, die man abfragen möchte mit Platzhaltern versieht. Sendet man nun die Anfrage an den Server, so erhält man exakt den selben Datensatz zurück, jedoch um die fehlenden Daten ergänzt. Der Umstand, dass das Rad nicht neu erfunden wurde, sondern mit JSON auf bereits existierende Syntax aufgebaut wurde und man somit auf unzählige fertige Parser für alle erdenklichen Programmiersprachen zurückgreifen kann ist ein sehr kluger und durchdachter Schritt.

mql query

Der Query Editor – links die Abfrage, rechts das Ergebnis.

Einschränkungen der MQL

Allerdings hat die Sprache einige Einschränkungen: Oder-Bedigungen sind nur über Umwege durchzuführen und auch ausschließende Bedingungen sind nicht auf direktem Wege möglich. Dieser muss der Programmierer selber durchführen. Ein Beispiel: Man möchte alle Länder filtern, die mit “A” beginnen, aber nicht in Asien liegen. Hier muss man zwei Queries ausführen: Zuerst “Finde alle Länder mit A” und anschließend “Finde alle Länder in Asien, die mit A beginnen” um die Elemente des zweiten Queries vom ersten Ergebnis abzuziehen.

Die Metaweb Query Language bietet aber nicht nur lesenden sondern auch schreibenden Zugriff. Das heißt mit Zuhilfenahme der API können Daten auch automatisiert gepflegt und abgeglichen werden. Hier muss es natürlich Mechanismen geben, um die zwei leidigsten Themen des Web 2.0 zu verhindern: Spam und Vandalismus.

Selber experimentieren

Wer jetzt neugierig geworden ist und selber den Dienst ausprobieren möchte, für den dürfte die größte Hürde es darstellen, dass der Dienst derzeit nicht allgemein zugänglich ist. Wer aber eine Einladung ergattert, der kann sich in der Sandbox austoben. Dies ist eien 1:1 Kopie der “echten” Freebase, auf der munter experimentiert werden darf. Diese ist unter http://sandbox.freebase.com/ zu erreichen. Jede Woche werden die Daten dann neu abgeglichen.

Fazit

Die Idee einer solchen Datenbank ist unglaublich faszinierend und ein weiterer Schritt in Richtung umfassende Wissensgesellschaft. Nach der Wikipedia ist Wissen nicht nur mehr überall nachschlagbar, sondern auch jederzeit filterbar. Die Umsetzung durch Metaweb wirkt sehr rund und durchdacht und auch mit der Wahl, die Daten unter der Creative Commons zu lizensieren sind die Weichen für eine positive Entwicklung des Dienstes gestellt.

Letzten Endes ist es jedoch eine Frage die Massen des Webs zu dynamisieren und zu hoffen, dass dieser Dienst gut angenommen wird.

Dieser Beitrag wurde ursprünglich im Blog zweinull.cc veröffentlicht. Im Mai 2008 wurden zweinull.cc und netzwertig.com zusammengeführt.

Freebase:
Ein Dienst mit Riesen-Potential

Relativ unbeachtet (die Blogosphäre war ja mit trivialeren Dingen beschäftigt) startete unter freebase.com kürzlich ein neuer Dienst in die nicht-öffentliche Testphase der meiner Meinung nach über enormes Potential verfügt: Es werden dort gemeinsam Listen und Datenbanken erstellt – Geordnete, durchsuchbare und filterbare Daten also, die im Gegensatz also zur Wikipedia vor allem durch Maschinen nutzbar sind – was einen großen Schritt in Richtung Semantisches Web darstellen kann.

Angefangen von globalen Ortsdatenbanken mit Postleitzahlen und geographischen Positionen bis hin zu Strichcode-Sammlungen von Supermarktprodukten ist alles dabei alles denkbar und letztendlich kann auch die Wikipedia davon profitieren, wie etwa bei der Angabe von statistischen Daten zu Städten zum Beispiel. Die von den Usern erstellte Inhalte werden dabei laut den Nutzungsbedingungen unter der Creative Commons veröffentlicht – man darf also die Inhalte vervielfältigen und weiterverarbeiten, vorausgesetzt man nennt den Namen des Rechteinhabers.

Hinter dem Projekt steht die Metaweb Technologies Inc., welche im Juli 2005 von Veteranen aus bekannten Unternehmen wie Netscape, Alexa und Intel in San Francisco gegründet wurde und mit reichlich Venturekapital ausgestattet ist.

Leider kann man sich derzeit nicht registrieren, sondern muss eingeladen werden wenn man den Dienst testen möchten, deshalb hatte ich noch nicht die Möglichkeit hatte, mir das Ganze im Detail anzusehen, aber wer eine Einladung übrig hat, kann sie mir gerne zusenden ;)

Dieser Beitrag wurde ursprünglich im Blog zweinull.cc veröffentlicht. Im Mai 2008 wurden zweinull.cc und netzwertig.com zusammengeführt.