Follow

Mal eine Frage an die und Experten.
Gehen wir mal davon aus ihr habt knapp 6 Monate 24/7 Playlist Daten von mehreren deutschen Radiosendern bekommen. (mit 2-3 Ausfällen)

Also "Sender, Datum, Uhrzeit, Künstler, Titel"

Wie würdet ihr das visualisieren? bzw analysieren?

Ich würde zum Beispiel gerne wissen ob ein Sender einen Künstler mehr spielt als alle anderen.

Falls jemand Ideen / Hinweise hat immer her damit. Boosten natürlich auch gerne.

@dasistdaniel

Ich nehm mal an, Deine Zugriffsschicht versteht SQL.

Dann sind die skizzierten Fragen mit ein paar Queries erledigt, sprich: Die Aggregationen gerechnet.

Wenn Du Graphiken willst, kannst Du die erzeugten Datenaggregate nach "R" füttern.

Soweit der deskriptive Ansatz.

Willst Du über die Datenbasis hinaus Erkenntnisse produzieren, brauchts Regressionsmodelle mit F-Tests. Auch die gibts in "R". :)

@textbook aktuell liegt es noch nicht in einer SQL Datenbank bereit, aber der Import ist da kein Problem.

Das Feld ist da meine größere Hürde. Aber nach den Antworten zu urteilen komm ich da an R anscheinend nur kaum dran vorbei.

Danke erstmal.

@dasistdaniel

Für XLS-Dokumente gabs mal einen SQL-Client namens MS-Query. Sehr nützlich aber leider lange her.

Eine enstprechende Lösung aus FOSS oder LibreOffice konnte ich bisher nicht finden.

@dasistdaniel Ich glaub, ich würde da mit Python/SciPy/matplotlib rangehen. Ggf in nem Jupyter Notebook.
Ein interaktives Buch zu SciPy wäre hier in nem Jupyter Notebook, das den gesamten Kram direkt in deinem Browser laufen lässt: mybinder.org/v2/gh/elegant-sci

(Es gibt auch R in nem Jupyter Notebook, falls du den anderen Vorschlag antesten willst: jupyter.org/try)

Alternativ könnte man die Daten auch in nem Elasticsearch Index ablegen und mit Kibana visualisieren.

@anathem vielen Dank. Schau ich mir gerne mal an.
Habe bisher nur mal an Jupyter geschnüffelt es aber noch nicht wirklich genutzt.

@dasistdaniel Die Details zu Zugriff auf die Datenbasis mal aussen vor lassend, einfach mal als subjektiver Erfahrungsbericht: Ich hatte vor einer Weile eine vage vergleichbare Aufgabe vor mir, aber keine (ausreichend belastbare) Ahnung von #Statistik, so dass ich meiner Interpretation der Ergebnisse von R-Scripten nicht trauen wollte. Bin dann mit dem freien #KNIME sehr gut zurande gekommen, fühlte mich von dessen visuellem Workflow und der Hilfe sehr gut geführt. Und macht Spass.

@ceha Statistik ist halt meine Schwachstelle. Das wurde bei mir in der Schule damals (vor vielen vielen Monden) nur mal angekratzt.

Mal schauen was ich mit den Daten noch anfange. 🤔

@dasistdaniel @ceha freut mich, dass jemand anders knime schon erwahnt hat. Kenne einige Leute, die daran arbeiten.

@Moepmoep @dasistdaniel ... und soweit ich das überblicke, ist das Teil wunderbar erweiterbar, und zumindest in Teilen irgendwie auch nur ein GUI-Wrapper um einen Stapel R-Scripte. ;-)
Ich nehm #KNIME sehr gern, um Methodik mit bekannten Daten auf Sinnhaftigkeit zu checken, bevor's auf grösseres losgeht, bzw. gefittete Modelle in anderem Framework ausgewildert werden.

@Moepmoep Und vieles ist bei #KNIME halt mit drei Klicks verfügbar, was ich mir aus Bequemlichkeit in anderen Umgebungen nie gönnen täte - oder beim Versuch dann blöde Fehler einbauen würde :-(
hab mich da beispielsweise jüngst sehr über den X-Partitionierer gefreut (um randomisiert Training Set und Testset zu isolieren), gerade ohne tiefgreifende Statistik/DataMining/MachineLearning-Kenntnisse sind solche Module schon eine gute Starthilfe.

Sign in to participate in the conversation
Ruhr.Social

The social network of the future: No ads, no corporate surveillance, ethical design, and decentralization! Own your data with Mastodon!