Im Zeitraum vom 13. bis zum 17. März 2017 fand in Berlin der KNIME Spring Summit 2017 statt. Bei Cyface benutzen wir KNIME, um Analysealgorithmen für die Verarbeitung von Smart-Traffic-Daten und Straßenzustandserfassung sowie -bewertung zu testen. Als Teil des Entwicklerteams der KNIME Palladian Nodes erhielten wir, wie jedes Jahr, eine freundliche Einladung, der wir gern gefolgt sind. Im Schatten der Monumente der Hauptstadt konnten wir uns also ausgiebig zu aktuellen Data-Science-Themen informieren. Die folgenden Abschnitte zeigen die wichtigsten Themen die uns zu Ohren gekommen sind und geben allgemein einen Überblick über den Ablauf des Summits.
Was ist KNIME
Die freie Open-Source-Plattform KNIME Analytics ist ein visuelles Datenanalysewerkzeug. Sie bietet eine Palette von Datenverarbeitungsknoten, die sich auf der Arbeitsfläche zu einem Arbeitsablauf verknüpfen lassen. Diese Knoten laden zum Beispiel einen Datensatz aus einer Datenbank oder aus dem Dateisystem, erlauben die Transformation der geladenen Datentabelle und das Schreiben der Ergebnisse in eine Datensenke. Zur Transformation stehen viele verschiedene statistische Verfahren und Algorithmen des maschinellen Lernens zur Verfügung. Abbildung 2 zeigt einen Ausschnitt eines Ablaufs zur Aktivitätserkennung (z. B.: Unterscheidung zwischen Fahrrad und Auto).
In der kommerziellen Variante gehen die Fähigkeiten von KNIME deutlich weiter. Der KNIME Server kann Arbeitsabläufe für einen Produktivbetrieb ausführen, wodurch auch Nichtprogrammierer in die Lage versetzt werden Datenanalyseanwendungen bereitzustellen. Außerdem ist es zum Beispiel möglich KNIME-Abläufe mittels Big-Data-Extensions auf einem Spark Cluster oder ähnlichem auszuführen.
KNIME Spring Summit 2017
Der folgende Abschnitt gibt einen Überblick der einzelnen Konferenztage und der in unseren Augen bemerkenswertesten Inhalte. Natürlich wurde noch viel mehr vorgestellt, was aber den Rahmen dieses Artikels sprengen würde.
De(velop/ployment) Days
Montag und Dienstag fanden parallel zu den üblichen Trainings die De(velop/ployment) Days statt, an denen die meisten Teams die freie Erweiterungen für die KNIME Analytics Platform entwickeln, teilnehmen. Wie immer waren das zwei sehr entspannte Tage mit reichlich Entwicklungszeit und ein wenig Einblick in aktuelle Entwicklungen der Plattform.
Am Montag wurde unter anderem der derzeitige Stand des „Continuous Deployment“ für alle Erweiterungen vorgestellt. Da es sich bei den KNIME-Erweiterungen im Kern um OSGI Bundles bzw. Eclipse Plugins handelt, kommt Buckminster zum Einsatz. Buckminster wird allerdings nicht mehr aktiv weiterentwickelt und soll wohl mittelfristig durch die Nachfolgetechnologie Tycho ersetzt werden. Zusätzlich wurde der Java-Snippet-Knoten so erweitert, dass angepasste Datentypen verwendet werden können. JavaScript-Visualisierungsknoten lassen sich jetzt direkt generieren und wiederverwenden. Am Abend wurden wir von unseren Gastgebern im Restaurant Tra Di Noi mit italienischen Köstlichkeiten verwöhnt.
Am Dienstag wurden die Entwicklungen für KNIME in the Cloud besprochen. Dies erlaubt es KNIME Workflows und Server direkt auf AWS oder Azure Maschinen zu starten und auszuführen. Der Vorteil ist, wie üblich bei SaaS Lösungen, der reduzierte Administrationsaufwand. Zusätzlich wurde die Streaming API vorgestellt und einige Details zur Skalierung des KNIME Servers erläutert.
Mittwoch: Spring Summit Tag 1
Der eigentliche Summit begann am Mittwoch mit der Einleitung durch Professor Michael Berthold dem „Vater“ von KNIME. Insbesondere hat uns beeindruckt, dass er ein klares Statement für die KNIME Analytics Plattform als Open-Source gab und das auch vor möglichen Investoren, die eigentlich andere Pläne hatten, vertrat.
Im weiteren Programm wurden einige der aktuell abgeschlossenen Entwicklungen vorgestellt. Einiges davon wurde bereits auf den De(velop/ployment) Days präsentiert. So wurde zum Beispiel erneut auf KNIME in the Cloud eingegangen aber auch der Stanford-Named-Entity-Learner und Predictor vorgestellt.
Interessant war auch zu erfahren, dass die KNIME Analytics Platform nun auch über Github und Bitbucket verfügbar ist, dass es neue Audio-Processing-Knoten gibt und dass die Personal-Productivity-Extensions in Zukunft zum Open-Source-Teil von KNIME gehören werden.
Zum Abend gab es noch eine spezielle Präsentation der KNIME-Model-Factory die einen Rahmen für typische Abläufe in KNIME vorgibt, den man nur an bestimmten Stellen noch durch die eigenen Knoten ergänzen muss. Dieser abschließende Vortrag, vor dem großen Dinner, fand stilecht in Sternenflottenuniformen statt.
Donnerstag: Spring Summit Tag 2
Am zweiten Tag des Summits hatten vor allem Partnerunternehmen von KNIME die Gelegenheit zu zeigen, welche Lösungen sie entwickelt haben. Von besonderem Interesse für uns waren die Erschütterungsanalysen bei Siemens und dem Berliner Startup Datatroniq. Beide analysieren damit die Lebensdauer und den Zustand von Maschinen. Datatroniq war außerdem so freundlich die KNIME-Open-Source Plattform um Knoten für die Fast-Fourier-Transformation zu erweitern. Diese werden in der Zukunft sicher auch für die Straßenzustandsanalyse von höchstem Interesse sein.
Den Abschluss des Tages bildete der Vortrag von Dean Abbott, der wie jedes Jahr wieder sehr kurzweilig Tipps und Tricks im Leben eines Datenanalysten zeigt. Diesmal am Beispiel von Überlebenswahrscheinlichkeiten auf der Titanic.
Freitag: Spring Summit Tag 3
Freitag war Workshop-Tag. Wir haben uns dort die Fast-Fourier-Knoten von Datatroniq zeigen lassen und einen Workshop von Dean Abbott mit dem Titel „Data Preparation from the Trenches“ angeschaut. Dort wurde zum Beispiel gezeigt, dass man für jeden Datensatz probieren kann die Merkmale um alle Kombinationen von Merkmalen zu erweitern. Dadurch werden implizite Abhängigkeiten ins System modelliert und die Klassifikation unter Umständen verbessert.
Zusammenfassung
Alles in allem war der diesjährige KNIME Spring Summit wieder eine sehr spannende und erfolgreiche Veranstaltung. Die Sprecher haben hoch interessante Inhalte geboten und die Diskussionen mit den Teilnehmern zeigen welche Dynamik in den KNIME Nutzern, aber besonders auch den Entwicklern steckt. Das Team hinter KNIME passt perfekt zusammen und ist hoch motiviert. Der Support funktioniert nicht nur schnell sondern auch unbürokratisch und neue Features der Software sind fast immer von höchster Qualität. Selbstverständlich war, wie jedes Jahr, großartig für das leibliche Wohl der Teilnehmer gesorgt. Eine Teilnahme im nächsten Jahr oder im Herbst empfehlen wir jedem der mit KNIME arbeitet oder damit beginnen möchte.