PodcastsTechnologieData Science Deep Dive

Data Science Deep Dive

INWT Statistics GmbH
Data Science Deep Dive
Neueste Episode

97 Episoden

  • Data Science Deep Dive

    #95: GitOps: Deployments mit Ruhepuls

    04.06.2026 | 27 Min.
    GitOps ist ein DevOps-Ansatz, bei dem der Betrieb von Services als Code in Git abgelegt und versioniert wird, statt Deployments manuell über Oberflächen zusammenzuklicken. In dieser Episode erklären Mira und Andreas, was GitOps ausmacht, wie sich der deklarative Ansatz vom klassischen imperativen Vorgehen unterscheidet und wo die Abgrenzung zu Infrastructure as Code verläuft. Sie sprechen über die Vorteile – etwa Nachvollziehbarkeit, Versionskontrolle, Automatisierung und geringere Fehleranfälligkeit – ebenso wie über Herausforderungen rund um Secrets-Management und das nötige Umdenken. Außerdem ordnen sie ein, wann sich der Einsatz lohnt und wann manuelles Vorgehen sinnvoller bleibt. Den Abschluss bildet ein Hands-on-Teil mit konkreten Einstiegsschritten und Werkzeugen wie ArgoCD.

     

    **Zusammenfassung**

    Was GitOps ist: Betrieb von Services als versionierter Code in Git, inklusive Konfiguration und laufender Versionen

    Beispiel API-Deployment: früher alles in der Pipeline, heute ein separates Repo, das den gewünschten Zustand beschreibt und von Tools wie ArgoCD mit dem Cluster abgeglichen wird

    Abgrenzung zu Infrastructure as Code: GitOps fokussiert die laufenden Services statt der Infrastruktur und gleicht Änderungen aktiv und kontinuierlich an

    Vorteile: Dokumentation, Rollback per Versionskontrolle, Automatisierung, weniger Fehler, Review-Möglichkeit und gemeinsame Verwaltung mehrerer Service-Versionen

    Herausforderungen: Umstieg von imperativ auf deklarativ, schwierigeres Debugging, alles muss in Git liegen, Secrets brauchen ein zusätzliches Tool

    Wann sinnvoll: ab MVP fast immer; bei kurzlebigen PoCs ruhig manuell oder per Pipeline

    Einstieg: mit neueren, einfacheren Projekten starten, ArgoCD installieren und schrittweise komplexer werden (dev/prod, mehrere Services)

    Fazit: kurze Einarbeitung, dann lohnt es sich – inzwischen etablierter Standard und "Deployments mit Ruhepuls"

    **Links**

    ArgoCD: https://argo-cd.readthedocs.io

    FluxCD: https://fluxcd.io

    ArgoCD Image Updater: https://argocd-image-updater.readthedocs.io

    Sealed Secrets: https://github.com/bitnami-labs/sealed-secrets

    External Secrets Operator: https://external-secrets.io

    Helm: https://helm.sh

    Kustomize: https://kustomize.io

    Kubernetes: https://kubernetes.io

    📬 Fragen, Feedback oder Themenwünsche?

    Schreibt uns gern an: podcast@inwt-statistics.de
  • Data Science Deep Dive

    #94: [PAIQ4] Predictive AI Quarterly

    21.05.2026 | 37 Min.
    In dieser Ausgabe des Predictive AI Quarterly geben Till und Amit einen Überblick über die wichtigsten Entwicklungen des letzten Quartals im Bereich Predictive AI. Themen sind unter anderem Hyper-Agents von Meta, praktische Herausforderungen beim Einsatz von Coding-Agents sowie neue Foundation-Modelle für tabellarische Daten wie TabImpute und TabICL v2. Im Praxisteil teilen die beiden ihre Erfahrungen aus einem Experiment zur Preisprognose von Autos, bei dem GPT-4o mit Bildern und Freitext gegen TabPFN antritt. Im Zentrum stehen dabei der Mehrwert unstrukturierter Daten, Fragen der Generalisierbarkeit und der Tradeoff zwischen Erklärbarkeit und Prognosegüte.

     

    **Zusammenfassung**

    Hyper-Agents von Meta: selbstevaluierende Agenten mit Potenzial für schnelleren Fortschritt, aber auch Risiken durch fehlende Kontrolle und verstärkte Biases

    Praktischer Einsatz von Coding-Agents: Subscriptions, Sandboxing, Audit Logs und Ausschluss kritischer Artefakte als Voraussetzungen

    Erfahrungen mit dem GitHub Cloud Agent, insbesondere bei der Überarbeitung bestehenden Codes

    TabImpute als neues Foundation-Modell für Imputation auf Basis von TabPFN inklusive eigenem Benchmark

    TabICL v2 als offen lizenzierte Alternative zu TabPFN mit schnellerer Inferenz

    Praxis-Experiment zur Preisprognose von Autos: GPT-4o mit Bildern erzielt die besten Ergebnisse, deutlich vor TabPFN

    Generalisierbarkeit bestätigt durch 30-fache Kreuzvalidierung mit einem aus Bildern erzeugten Score-Feature

    Tradeoff zwischen Erklärbarkeit (Feature-Generierung) und Prognosegüte (Finetuning) als zentrale Erkenntnis

     

    **Links**

    Predictive LLMs: Die Rolle multimodaler Daten bei der Preisprognose https://www.inwt-statistics.de/blog/predicitve-llms-rolle-multimodaler-daten

    HyperAgents (Zhang et al., 2026): Paper unter https://arxiv.org/abs/2603.19461, Code unter https://github.com/facebookresearch/Hyperagents

    Feitelberg, J., Saha, D., Choi, K., Ahmad, Z., Agarwal, A. & Dwivedi, R.: TabImpute: Universal Zero-Shot Imputation for Tabular Data. https://arxiv.org/pdf/2510.02625

    TabICL GitHub Repo https://github.com/soda-inria/tabicl

    OpenAI Developers: Vision fine-tuning https://developers.openai.com/api/docs/guides/vision-fine-tuning

    📬 Fragen, Feedback oder Themenwünsche?
    Schreibt uns gern an: podcast@inwt-statistics.de
  • Data Science Deep Dive

    #93: Bayesianische Statistik: Vorwissen und Daten kombinieren

    07.05.2026 | 33 Min.
    In dieser Episode sprechen Mira und Amit über die Grundlagen der bayesianischen Statistik und zeigen anhand der Wahlprognose für die Bundestagswahl, wie sich Vorwissen und neue Daten zu einer aussagekräftigen Posterior-Verteilung kombinieren lassen. Sie erklären die zentralen Begriffe Prior, Likelihood und Posterior und ordnen ein, wie sich Kredibilitätsintervalle von klassischen Konfidenzintervallen unterscheiden. Außerdem gehen sie auf praktische Anwendungsfälle wie A/B-Testing ein und diskutieren, warum der bayesianische Ansatz trotz seiner Vorteile nicht immer die erste Wahl ist.

    **Zusammenfassung**

    Einstiegsbeispiel Wahlprognose: Stichprobenunsicherheit trifft auf Vorwissen über realistische Stimmanteile

    Bayes-Theorem als Grundlage: Posterior ist proportional zu Likelihood mal Prior

    Prior-Verteilungen: informative Priors aus Vorwissen vs. nicht-informative Priors

    Interpretation der Posterior: Erwartungswert, Wahrscheinlichkeit für Effekte über einem Schwellenwert, Kredibilitätsintervalle

    Unterschied zur frequentistischen Statistik: p-Werte und Konfidenzintervalle vs. intuitiv interpretierbare Wahrscheinlichkeitsaussagen

    Praxisbeispiele: A/B-Testing mit Vorwissen aus früheren Tests, Robustheitsprüfungen, Einsatz bei Google

    Vorteile: intuitive Interpretation, Nutzung von Vorwissen, sinnvolle Ergebnisse auch bei kleinen Stichproben

    Nachteile: hoher Rechenaufwand durch Monte-Carlo-Simulationen, geringere Verbreitung, nicht immer existiert ein sinnvoller Prior

    **Links**

    #56: Unsere Bundestagswahl-Prognose: Wer gewinnt die Wahl 2025? https://www.podbean.com/ew/pb-hwgnd-16e446e

    #26: A/B-Testing: Erkenntnisse statt Bauchgefühl https://www.podbean.com/ew/pb-6fzpj-143cfb1

    📬 Fragen, Feedback oder Themenwünsche?
    Schreibt uns gern an: podcast@inwt-statistics.de
  • Data Science Deep Dive

    #92: Anomaly Detection von Produktbildern mit ClickHouse

    23.04.2026 | 46 Min.
    In dieser Episode geht es um die Anomaly Detection von Produktbildern in einem realen Produktions-Use-Case – von der Problemstellung bis zur Umsetzung in ClickHouse. Wir zeigen, wie sich fehlerhafte Produkterkennungen mithilfe von Embeddings und Distanzmaßen identifizieren lassen, ohne auf aufwendige gelabelte Daten angewiesen zu sein. Der Fokus liegt auf einer pragmatischen, performanten Lösung direkt in der ClickHouse-Datenbank, die Anomalien in Millisekunden erkennt und gleichzeitig die Datenqualität für das Modelltraining verbessert. Außerdem diskutieren wir Trade-offs zwischen Einfachheit, Performance und Entwicklungsaufwand sowie Learnings aus dem Projekt.

     

    **Zusammenfassung**

    Use Case: Automatische Produkterkennung auf Basis von Videostreams mit Fehlerquote (~ 5%)

    Problem: Falsche Zuordnungen durch Störkörper, Überlagerungen und ungünstige Perspektiven

    Ziel: Identifikation unsicherer Vorhersagen zur manuellen Prüfung und sauberen Trainingsdaten

    Ansatz: Unsupervised Anomaly Detection mittels Embeddings und Distanz zum Clusterzentrum

    Methode: K-Means-Logik – große Distanz --> geringe Zuordnungs-Sicherheit

    Threshold: 2 x Standardabweichung identifiziert ~ 90% der Anomalien (bewusster Trade-off)

    Umsetzung: Echtzeit-Berechnung direkt in ClickHouse über Materialized Views

    Vorteil: Keine zusätzliche Infrastruktur (z.B. Kafka), sehr geringe Latenz (< 1 Sekunde)

    Nachteil: Trennung zwischen Entwicklung (Python) und Produktion (SQL/ClickHouse)

     

    **Links**

    #54: Modell-Deployment: Wie bringe ich mein Modell in die Produktion? https://www.podbean.com/ew/pb-hhhwu-16b91f3

    ClickHouse https://clickhouse.com/

    ClickHouse Docs: Can you use ClickHouse for vector search? https://clickhouse.com/docs/knowledgebase/vector-search

    📬 Fragen, Feedback oder Themenwünsche?
    Schreibt uns gern an: podcast@inwt-statistics.de
  • Data Science Deep Dive

    #91: Software ohne Entwickler*innen? Wie AI Agents unsere Arbeit neu definieren

    09.04.2026 | 46 Min.
    Agentic AI verändert die Art, wie Software entsteht und stellt bestehende SaaS- und Subscription-Modelle zunehmend infrage. Im Fokus stehen AI-Agents, die in Think-Act-Observe-Loops eigenständig handeln und Entwicklungsprozesse automatisieren. Besonders im Data-Science-Umfeld zeigen sich Chancen im Prototyping, aber auch Herausforderungen durch langsame Tests, komplexe Datenpipelines und fehlende Qualitätsmetriken. Entscheidend für den erfolgreichen Einsatz sind klare Aufgabenabgrenzung, kleine Iterationen und robuste Guardrails wie Tests und Linter. Gleichzeitig verschieben sich Rollenprofile hin zu mehr konzeptioneller Arbeit, während Fragen zu Sicherheit, Souveränität und langfristiger Wartbarkeit offen bleiben.

     

    **Zusammenfassung**

    SaaS- und Subscription-Modelle geraten durch AI-getriebene Eigenentwicklung unter Druck

    Evolution: Chat --> Copilot --> Agentic AI mit autonomen Fähigkeiten

    AI-Agents arbeiten in Think-Act-Observe-Loops und können aktiv handeln

    Aktuelle Tools vor allem in Terminal-Umgebungen (CLI-basiert)

    Kleine, klar definierte Aufgaben erhöhen Erfolgswahrscheinlichkeit

    Guardrails (Tests, Linter, Typisierung) sind essenziell für Qualität

    Prototyping funktioniert gut, produktiver Einsatz noch eingeschränkt

    Data Science leidet unter langsamen Tests und langen Iterationszyklen

    Custom Stacks aktuell im Vorteil gegenüber Plattformlösungen

    Offene Themen: Sicherheit, Datenzugriff, Abhängigkeit von LLM-Anbietern

     

    **Links**

    #29: Die Qual der Wahl: Data Science Plattform vs. Customized Stack https://www.podbean.com/ew/pb-pep8h-147029f

    The Pragmatic Engineer: When AI writes almost all code, what happens to software engineering? by Gergely Orosz https://newsletter.pragmaticengineer.com/p/when-ai-writes-almost-all-code-what

    Conductor Extension for Gemini CLI https://github.com/gemini-cli-extensions/conductor

    📬 Fragen, Feedback oder Themenwünsche?
    Schreibt uns gern an: podcast@inwt-statistics.de
Weitere Technologie Podcasts
Über Data Science Deep Dive
Wir machen Data Science. Und in unserem Podcast Data Science Deep Dive reden wir darüber. Du bist ebenfalls Data Scientist oder interessierst dich für Daten, ML und AI? Dann ist dieser Podcast für dich. Wir teilen unsere Learnings aus über 180 Projekten, du bekommst Infos und Anregungen zu spannenden Themen rund um Daten. Wir klären auf, geben Hinweise und teilen unsere Erfahrungen, die wir in über 10 Jahren als Data Scientists im B2B Bereich gesammelt haben. Wir decken auf, was wirklich hinter den Hypes und Trends der Data Science Branche steckt. Wir hinterfragen, was ein Data Science Projekt erfolgreich macht und welche Faktoren es zum Scheitern verurteilen.
Podcast-Website

Höre Data Science Deep Dive, Darknet Diaries Deutsch und viele andere Podcasts aus aller Welt mit der radio.de-App

Hol dir die kostenlose radio.de App

  • Sender und Podcasts favorisieren
  • Streamen via Wifi oder Bluetooth
  • Unterstützt Carplay & Android Auto
  • viele weitere App Funktionen
Rechtliches
Social
v8.9.7| © 2007-2026 radio.de GmbH
Generated: 6/11/2026 - 8:20:03 AM