Werkstudent (m/w/d) – Natural Language to SQL / RAG Pipeline - Leipzig

NativeResearch drw GmbH
Raum Leipzig

Dein Job

Ein Nutzer fragt: „Kaufen Studierende eher Aktien als ETFs?“ – unsere Pipeline liefert eine präzise, datenbasierte Antwort direkt aus der Datenbank. Dahinter steckt eine mehrstufige, robuste Orchestrierung von LLM-Komponenten: Query Planning (Zerlegung in strukturierte Sub-Queries), Embeddings & Retrieval, NL→SQL (Übersetzung in sauberes, ausführbares SQL), Web Search (Integration externer Quellen) und Answer Merging (Kombination aller Ergebnisse zu einer kohärenten Antwort).

 

Jeder LLM-Call muss präzise sein – fehlerhaftes SQL bricht, falsches Retrieval liefert verzerrte Insights.

 

Mögliche Aufgabenbereiche:

 

  • NL→SQL robust machen: SQL-Generierung, Validierung, Fehlerkorrektur
  • Pipeline Engineering: Query Planning, Variable Selection, SQL Construction
  • Embeddings & Retrieval: Kontextaufbereitung, Indexing, Ranking
  • Web Integration: externe Daten sicher einbinden
  • User Management: Sessions, Auth, Multi-Tenant
  • Prompt Engineering: System-Prompts optimieren, Edge Cases abdecken
  • Ownership: Probleme erkennen, Lösungen umsetzen, nachhaltig verbessern

 

Ziel: höhere SQL-Qualität, geringere Latenz und Kosten, reproduzierbare und prüfbare Antworten.

Dein Profil

Must-have:


· Solides Python (FastAPI, async/await, sauberer Code)
· Verständnis für Multi-Step-Pipelines und systematisches Debugging
· Eigenständigkeit – du arbeitest mit Logs und findest Lösungen

Nice-to-have:


· Erfahrung mit LLMs / Prompt Engineering (OpenAI, Claude etc.)
· SQL-Verständnis (JOINs, Aggregationen, WHERE-Logik)
· Embeddings / Vector Search (RAG-Patterns)
· Auth / RBAC, pytest / Integration Tests
· Erfahrung mit DuckDB oder ähnlichen analytischen DBs

Persönlich:


· Mitdenken – du stellst Architekturentscheidungen infrage
· Debugging-Mindset – systematisch statt Trial-and-Error
· Ownership – kein „nicht mein Problem“-Denken
· Klare Kommunikation – komplexe Probleme verständlich erklären

Wie wir arbeiten:


· Kleines, technikgetriebenes Team – flache Hierarchien, direkte Kommunikation
· Remote-first, flexibel bis 20 h / Woche
· Berlin bevorzugt – gelegentliche persönliche Treffen möglich
· Prüfungsphasen werden selbstverständlich berücksichtigt

Was wir bieten:


· Bis zu 2.000 € / Monat (≈ 25 € / Stunde)
· Cutting-edge Tech: GPT-4, Embeddings, NLP→SQL-Patterns
· Echtes Lernen: LLM-Pipelines in Production
· Autonomie + Impact: Dein Code läuft live
· Wachstumsperspektive: Feste Rolle möglich

Deine Benefits

Flexible Arbeitszeit
Home Office

Stellenmerkmale

Dein Beschäftigungsumfang

Nach Vereinbarung

Dein Gehalt

25 € / Stunde

Dein Arbeitsplatz:

Homeoffice

Dein Büro:

Raum Leipzig

Ansprechpartner:in

Bei Fragen

Herr Johannes Nass