Während die IT-Branchen in Bereichen wie Hardware stagniert, gilt das Geschäftsfeld Big Data als Wachstumsmarkt. Verspricht doch eine Studie von IDC, dass die weltweiten Umsätze in diesem Geschäftsbereich bis 2017 auf 32,4 Milliarden Dollar steigen - bei eindrucksvollen jährlichen Wachstumsraten von 27 Prozent. Kein Wunder, dass Kapitalgeber Startups in diesem Bereich geradezu mit Geld überschütten.
So hat der Entwickler der erfolgreichen NoSQL-DBMS, MongoDB, bei Investoren mittlerweile über 300 Millionen Dollar eingesammelt und der Marktführer für Hadoop-Distributionen Cloudera insgesamt 740 Millionen Dollar. Auch in deutschen Stellenanzeigen suchen die Arbeitgeber immer häufiger nach Fachleuten mit Kenntnissen in Hadoop und NoSQL, hierzulande ist der Big-Data-Markt aber noch recht klein. So überrascht es nicht, dass unter den im Folgenden vorgestellten Startups vor allem US-Gründungen zu finden sind.
Hadoop-Hype flaut ab
Für neue Firmen ist der Markt in den letzten Jahren bereits enger geworden. So war in den letzten Jahren das für Rechenprozesse mit großen Datenmengen konzipierte Hadoop ein Kernthema. Hier hat sich nach Meinung von Experten aber 2012 der Markt für Hadoop-Distributionen, die dessen Verwendung vereinfachen, bereits konsolidiert. Dominiert wird der Markt aktuell von den Konkurrenten Hortonworks und Cloudera sowie von Amazon AWS. Es verbleiben aber noch andere Themen für Big-Data-Startups. So kann Big Data als Grundlage dienen, den Vertrieb zu optimieren oder für Unternehmenssicherheit verwendet werden. Ein Beispiel in diesem Bereich ist die Firma Theta Ray. Aktuell scheint sich außerdem die sinnvolle Verknüpfung neuer und alter Technologien, wie von NoSQL und herkömmlichen DBMS als neues Thema zu etablieren. In unserem Überblick zeigen wir zehn interessante Unternehmen aus dem Big-Data-Umfeld.
Wir starten mit dem schnellen A-bis-Z-Faktencheck per Bilderstrecke und gehen dann im Folgenden noch etwas genauer auf die einzelnen Startups ein…
Framed
Framed bietet eine Lösung für die sinnvolle Nutzung der gesammelten Kundendaten: Das Unternehmen verspricht, nicht nur frühere Kundenbeziehungen zu analysieren, sondern das zukünftige Verhalten eines Kunden vorhersagen zu können. Der Webdienst soll beispielsweise diejenigen Kunden identifizieren, die vor der Beendigung der Geschäftsbeziehung stehen oder kurz vor einer Kaufentscheidung stehen. Zusätzlich analysiert das Tool Kunden um maßgeschneiderte Promotion- und Marketing-Aktionen zu ermöglichen. Für die Nutzung ist ein Analytics-Provider erforderlich, direkt unterstützt wird beispielsweise Mixpanel. Kunden sind laut Firmenangaben bereits "mehrere hundert" Firmen.
RStudio
Als Alternative zu SAS und SPSS bietet sich die in Universitäten beliebte Open Source-Statistiksoftware bzw. Programmiersprache R an. So hat Microsoft kürzlich das auf R spezialisierte Revolution Analytics übernommen, ein weiteres Startup ist das 2008 als Open-Source-Projekt gegründete RStudio aus Boston. Seit Ende 2013 bietet RStudio, das in Open Source-Kreisen einen guten Ruf genießt, seine Software in einer Version für Firmenkunden an. Hauptprodukte sind die plattformunabhängigen Lösungen RStudio IDE, eine Entwicklungsumgebung für R sowie ggplot2 und dplyr. Mit Shiny hat RStudio ein Framework für die Entwicklung interaktiver Webanwendungen im Angebot. Der Gründer JJ Allaire ist in Fachkreisen nicht unbekannt, so entwickelte er das früher recht beliebte Cold Fusion.
Map-D Technologies
Nvidia ist ein eher ungewöhnlicher Investor für ein Big-Data-Startup, die Erklärung ist die technische Grundlage von Map-D Technologies: Für die Visualisierung von großen Datenmangen dienen keine CPUs, sondern preiswerte Standard-Grafikkarten. In Echtzeit kann die Visualisierungsplattform eine Datenbank auswerten und interaktive Grafiken erstellen. Ein spezielles Speicherverfahren für Text löst ein Problem bei der Nutzung von Grafikkarten - den geringen Arbeitsspeicher.
Vor allem optisch ist die Demoanwendung der Firma beeindruckend, die "TweetMap", die Twitter-Feeds in Echtzeit und interaktiv auswertet. Bekannt ist der Gründer Todd Mostak durch seine Abschlussarbeit in Harvard, "Social Media as Passive Polling: Using Twitter and Online Forums to Map Islamism in Egypt." Neben Nvidia ist Google der Hauptinvestor. Der Nutzwert für Unternehmen erscheint indes recht begrenzt und auf Patentschutz hat der Entwickler ebenfalls verzichtet.
Parstream
Eine Datenbankplattform für das Internet of Things will Parstream schaffen. Grundlage ist die spezialisierte DBMS ParStreamDB, die neben herkömmlichen Daten Streaming-Daten in Echtzeit verwalten kann. Nach eigenen Angaben ist das Unternehmen mit Teams in Köln und Silicon Valley Marktführer bei der Echtzeit-Abfragezeit. Als Schnittstellen unterstützt Parstream JDBC und ODBC ebenso wie ein C++-API. Die COMPUTERWOCHE hat die Software vor kurzem bereits ausführlich vorgestellt. Zu Kunden gehören Mpreis, Etracker und BD4Travel.
Boomerang Commerce
Amazon passt die Preise von Millionen Produkten permanent an, um automatisch auf Angebote von Konkurrenten zu reagieren. Boomerang Commerce will seinen Kunden bei diesem Preis-Wettbewerb helfen und verspricht mit einem so genannten Price Perception Index dafür zu sorgen, dass die richtigen Produkte niedrig und geeigneten Produkte hoch bepreist sind. Preisstrategien kann das System testen und simulieren, die Preise und möglichen Bestand der Wettbewerber eines Kunden überwacht Boomerang als SaaS in Echtzeit. Zu den Kunden gehören unter anderem Staples, Sears, DHGate, Radio Shar und Groupon Goods.
MemSQL
Bei den NoSQL-Datenbanverwaltungen ist MongoDB unbestrittener Marktführer, an alternativen Engines herrscht trotzdem kein Mangel. MemSQL erweckte beim Erscheinen mit Eigenaussagen wie "The World Fastest Database" für Aufmerksamkeit aber auch Misstrauen, sind Performance-Vergleiche zwischen verschiedenen Datenbankverwaltungen doch umstritten. Grundidee von MemSQL ist, die Beschleunigung von Datenoperationen durch zwei Techniken: Die Datenbank läuft komplett im Arbeitsspeicher und SQL-Befehle wandelt die Software in Echtzeit in C++ um. Erste Referenzkunden waren Zynga und Morgan Stanley, mittlerweile nutzten laut MemSQL bereits hunderte Firmen wie Comcast und Ziff Davis die laufend verbesserte Lösung.
Splice Machine
Sowohl SQL als auch NoSQL haben Nachteile; Splice Machine verspricht, die Stärken beider Welten zu vereinen: die Vorteile von Hadoop wie niedrige Kosten und Performance, aber ebenso volle SQL-Kompatibilität. Splice Machine bezeichnet seine Software als "SQL-on-Hadoop RDBMS". Laut Hersteller handelt es sich bei ihrem DBMS um die einzige Unterstützung von ACID-Transaktionen unter Hadoop. Gründer Monte Zweben zufolge erhalten Firmen, die Hadoop-Lösungen und ein Data Warehouse parallel nutzen, mit Splice Machine eine Komplettlösung. Im Unterschied zu ähnlichen Lösungen wie Hive oder Clouderas Impala unterstützt sie etwa Echtzeit-Updates.
Altiscale
Altiscale bietet Hadoop-as-a-Service. Kunden sollen eine besonders flexible und vom Anbieter gewartete Hadoop-Lösung erhalten. Zielgruppe sind gegenwärtige Nutzer von Hadoop mit eigenem Cluster oder Amazon EMR, die nach einer alternativen Nutzungsmöglichkeit suchen. Konkurrenten sind Anbieter wie Qubole und Treasure Data. Gegenüber Managed Hadoop-Anbieter will vor allem Altiscale mit besserem Support und einem besseren Abrechnungsmodell punkten. Viel Aufmerksamkeit erhielt Altiscale wohl auch, da der Gründer Raymie Stata als Ex-Yahoo CTO bekannt ist und zusammen mit Doug Cutting das Projekt Hadoop entwickelte.
Theta Ray
Das israelische Unternehmen Theta Ray will Big Data nutzen, um die Unternehmenssicherheit zu gewährleisten. Ohne die Hilfe von Signaturen oder Heuristik soll die Lösung ein Firmennetz vor Zero-Day-Attacken oder Advanced Persistent Threats schützen. Dazu prüft das System Daten aus verschiedensten Quellen auf Auffälligkeiten - beispielsweise ausfallenden Geräten und Energieabfällen oder auffällige Finanztransaktionen. Stärke des Produkts sei laut CEO Mark Gazi vor allem die vergleichsweise niedrige False Positive-Rate, ein Hautproblem dieses Sicherheitskonzepts. Zielgruppe sind unterschiedlichste Branchen wie Energieversorger und Fabriken als auch Finanzdienstleister. Gründer des 2012 entstandenen Startups sind zwei Professoren der Universitäten von Tel Aviv und Yale. Nach Firmenangaben wird die Lösung von den beiden Investoren General Electric und Poalim bereits verwendet. Konkurrenten sind wohl Firmen wie Splunk, Norse Corp, Plantir und Noise Dynamics.
Crate
Eine so genannte Shared-Nothing-Architektur hat das in Berlin und Dornbirn ansässige Crate.io zu bieten. Um Daten hochverfügbar zu halten, kombiniert es als Backend relationales SQL mit NoSQL und integrierter Suche: beispielsweise MySQL mit MongoDB und Elasticsearch. Grundlagen sind die Open-Source-Technologien Presto, Lucene, Elasticsearch und Netty. Crate ist als Community Edition unter einer Apache-Lizenz kostenlos nutzbar, Business- und Enterprise-Lizenzen mit zusätzlichen Funktionen und Support sind verfügbar. Referenzkunden hat die Software offenbar bisher nicht vorzuweisen. (sh)
Abschließend noch einmal der Überblick über alle vorgestellten Startups - alphabetisch sortiert: