Warum ist die Chunking-Strategie so entscheidend und wie wird sie entworfen?

Die Chunk-Größe *bestimmt die Retrieval-Qualität direkt*. Zu kleine Chunks (50-100 Tokens) verlieren Kontext — das Modell bekommt die halbe relevante Passage und verpasst die andere Hälfte. Zu große Chunks (1500+ Tokens) verschlechtern die Embedding-Qualität und verbrauchen das LLM-Context-Window. Der praktische Bereich: *300-600 Tokens* (etwa 200-400 Wörter) mit 10-20 Prozent Overlap. Aber gutes Chunking ist nicht nur Größe; *semantische Grenzen* (Absatz, Überschrift, Listenende) müssen erhalten bleiben. Für Verträge, Rechtstexte und technische Dokumentation liefert *strukturbewusstes Chunking* (nach Markdown-Überschrift, nach HTML-Section) 2-3-mal bessere Recall-Werte als Fixed-Size-Chunking. Für Freitext wie Chat-Logs und E-Mails genügt Fixed-Size plus Overlap. In unserer AIGENCY-Pipeline verwenden wir einen Doc-Type-Classifier und einen pro Typ spezialisierten Chunker.

Was ist Hybrid Search und warum reicht reine Vector-Suche nicht?

Vector-Suche findet semantische Ähnlichkeit — eine Anfrage wie *KVKK-konformes CRM* findet ein Dokument mit dem Titel *System zum Schutz personenbezogener Daten*, selbst ohne Wortüberschneidung. Manche Fälle verlangen aber *wörtliche Schlüsselworttreffer*: Produktcodes (XR-2050-A), Personennamen (Mehmet Tunç), Rechtsverweise (Gesetz 5651). Reine Vector-Suche schwächelt hier — Embedding-Modelle repräsentieren Eigennamen und Codes schwach. Lösung *Hybrid Search*: BM25 (klassische Volltextsuche) und Vector-Suche laufen zusammen, die Ergebnisse werden mit *Reciprocal Rank Fusion (RRF)* oder gewichteter Bewertung verschmolzen. In Produktion liefert Hybrid Search *15-30 Prozent besseren Top-5-Recall* als reine Vektor-Suche. Qdrant, Weaviate und Elasticsearch unterstützen Hybrid nativ; für pgvector ist eine manuelle Implementierung nötig (separate ts_vector- und Cosine-Distance-Queries, im Code zusammengeführt).

Ist eine Reranker-Schicht wirklich nötig und welchen Mehrwert bringt sie?

Der Drei-Schichten-Pipeline-Standard (Retrieval → Rerank → Generation) ist für produktive RAG inzwischen *Standard*. In der Retrieval-Phase werden zur Geschwindigkeit top-50 / top-100 Dokumente gezogen (Vector + Hybrid); dann ordnen Cross-Encoder-Modelle wie Cohere Rerank, BGE Reranker oder ColBERT diese Liste neu und die top-5 / top-10 gehen an das LLM. Ein Reranker ist deutlich präziser als Bi-Encoder-Embeddings, weil er jedes Query-Dokument-Paar einzeln bewertet. Kosten: +30-100 ms zusätzliche Latenz pro Anfrage, +USD 0,001-0,005 Gebühr (mit Cohere). Wert: in unseren Messungen hebt der Reranker den Top-3-Recall um *25-40 Prozent*; das verbessert direkt die Quote, mit der das LLM die richtige Antwort findet. RAG ohne Reranker ist für kleine PoCs akzeptabel; für die Produktion wird eine Reranker-Schicht stets empfohlen.

Wie evaluieren wir ein RAG-System — woher wissen wir, dass es wirklich funktioniert?

Drei Schichten: (1) *Retrieval-Evaluation* — Golden Dataset (50-200 manuell gelabelte Query-Doc-Paare), Top-K-Recall, MRR (Mean Reciprocal Rank) und NDCG-Metriken. Frameworks wie Ragas, TruLens und Phoenix automatisieren diese Schicht. (2) *Generation-Evaluation* — Korrektheit der LLM-Ausgabe, Treue zur Quelle (Faithfulness), Antwortrelevanz. Das LLM-as-judge-Muster (GPT-4 oder Claude wird gefragt *ist diese Antwort treu zur Quelle?*) ist schnell, aber subjektiv; menschliche Bewertung ist quartalsweise zur Kalibrierung Pflicht. (3) *Produktions-Monitoring* — echte Query-Logs, Latenz-Verteilung, Nutzerfeedback (Daumen rauf/runter), *Ich weiß nicht* / Halluzinationsrate. Ohne alle drei Schichten zusammen dauert es Monate, RAG-Degradierung zu bemerken — eine Embedding-Modell-Änderung, ein Doc-Store-Update oder eine Prompt-Änderung kann die Qualität still senken. Für unsere Unternehmenskunden ist der Mindeststandard: wöchentliche automatisierte Retrieval-Eval, monatliche LLM-Judge-Eval, durchgehendes Produktions-Monitoring.

Künstliche Intelligenz

Unternehmens-RAG-Architektur: Leitfaden zu Vector-DB, Chunking und Evaluation

Sieben praktische Entscheidungen für produktive RAG-Systeme: Vector-DB-Auswahl, Chunking-Strategie, Hybrid Search, Reranker, Evaluation-Framework. Lehren aus Unternehmens-KI-Projekten. Eine Engineering-Notiz von eCloud Tech.

Veröffentlicht: 24. Mai 202612 Min. Lesezeit

ragvector-databasechunkinghybrid-search

In den vergangenen drei Jahren ist RAG (Retrieval-Augmented Generation) zur dominierenden Architektur für KI-Projekte im Unternehmen geworden. Anforderungen wie KVKK-Compliance, Verwaltung sensibler Daten und Arbeit mit unternehmensinternen Wissensbasen haben einen wesentlich praktischeren Weg eröffnet, als offene Modelle nachzutrainieren: Basismodell unverändert lassen, Unternehmens-Dokumente zur Laufzeit einspeisen und die Antwort generieren lassen. Die Parole ist einfach; die fehlende Disziplin in der Umsetzung lässt Projekte verfaulen. Der Unterschied zwischen produktivem RAG und Demo-RAG ist architektonische Qualität — jede Schicht, von der Vector-DB-Auswahl bis zur Chunking-Strategie, von Hybrid Search bis Reranker, vom Evaluation-Framework bis zum Produktions-Monitoring, muss gemessen und getestet sein.

Im Rahmen unserer Dienstleistungen RAG-Systems-Engineering und Vector-Database-Engineering haben wir in den vergangenen 18 Monaten an 12 Unternehmens-RAG-Projekten gearbeitet und betreiben unsere eigene AIGENCY-v4-Plattform auf einer RAG-lastigen Architektur. In diesem Artikel gehen wir sieben kritische Entscheidungen einer Unternehmens-RAG-Architektur der Reihe nach durch: Doc-Store-Auswahl, Chunking-Strategie, Embedding-Modell, Hybrid Search, Reranker-Schicht, Evaluation-Framework und Produktions-Monitoring.

1. Strategische Entscheidung — RAG, Fine-Tuning oder hybrid?

Abbildung 1 — Strategische Entscheidung — RAG, Fine-Tuning oder hybrid?

Die erste Frage lautet nicht lasst uns RAG nutzen — sie sollte lauten ist RAG das richtige Werkzeug für dieses Problem?. Drei Ansätze stehen zur Wahl:

Pure RAG — das Basismodell bleibt unverändert; bei jeder Anfrage werden Unternehmens-Dokumente zur Laufzeit gezogen. Ideal für Szenarien mit häufig aktualisierten Daten, Audit-Anforderungen und Nachvollziehbarkeit (Recht, Kundensupport, Unternehmens-Wissensbasis).
Fine-Tuning — das Basismodell wird für einen bestimmten Ton, ein Format oder eine Domänenaufgabe spezialisiert. Gut für stabile, eng gefasste Aufgaben (medizinische Berichterstattung, Code-Stil-Transformation, Produktbeschreibungserzeugung).
Hybrid (RAG + Fine-Tuning) — das fine-getunte Modell trägt das Basiswissen (Domänenterminologie, Format), während RAG die kontinuierlich aktualisierten Daten liefert. Der dominierende Ansatz für komplexe, hochvolumige Unternehmens-Szenarien.

Entscheidungstest: Wenn Wissen sich täglich aktualisiert, RAG; wenn Verhalten/Format gelernt werden muss, Fine-Tuning; wenn beides nötig ist, Hybrid. Etwa 70 Prozent der Unternehmensprojekte starten mit Pure RAG; sobald sie reales Produktionsvolumen erreichen, gehen etwa die Hälfte in Hybrid über. Pures Fine-Tuning ist im Unternehmen eine Minderheit, weil Nachtrainieren bei jeder Wissensänderung kostspielig ist und Audit erschwert.

Zweiter praktischer Punkt: RAG ist kein Allheilmittel. Falsch eingesetzt steigen Halluzinationsraten (das LLM behandelt irrelevante Dokumente als Quellen), Latenz wächst, Kosten explodieren. Richtig eingesetzt sagt das Modell dort Ich weiß nicht, wo es das sollte, und antwortet dort mit Quellenangabe, wo es wirklich weiß. Der Unterschied ist architektonische Disziplin.

2. Doc-Store-Auswahl — pgvector vs. Qdrant vs. Milvus vs. Managed Services

Abbildung 2 — Doc-Store-Auswahl — pgvector vs. Qdrant vs. Milvus vs. Managed Services

Die Wahl der Vector-Datenbank ist die Skelett-Entscheidung der RAG-Architektur; ein späterer Wechsel bedeutet Migrationsschmerz und monatelanges Reiben. Drei Hauptkategorien:

PostgreSQL + pgvector — als Erweiterung auf vorhandenem PostgreSQL installiert. Eine Datenbank, ein Backup, ein Betrieb. Praktisch bei 100K-500K Embeddings. Vorteile: Metadaten-Filter auf SQL-Ebene, transaktionale Konsistenz, das Werkzeug, das Ihr Team ohnehin kennt. Nachteile: HNSW-Indizierung verlangsamt sich ab 1M+, und Filter + Vector-Search-Kombinationen verlangen besonderes Tuning. Unsere Empfehlung: Standardwahl für kleine bis mittlere Unternehmensprojekte.

Qdrant — in Rust geschrieben, vector-first-Datenbank. Hervorragende HNSW-Performance, nativer Payload-Filter, REST- und gRPC-APIs. Sweet Spot bei 1-50 Mio. Embeddings. Self-hosted oder als Managed Cloud. In Unternehmensprojekten seit 2023 populär geworden. In unserer AIGENCY-Pipeline halten wir 8 Mio. Embeddings in einem Qdrant-Cluster.

Milvus — verteilte Architektur, entworfen für sehr große Skalen (10 Mio.-1 Mrd.+ Embeddings). Hoher Betriebsaufwand (Kubernetes, etcd, MinIO als Komponenten); ohne dediziertes DevOps im Team schwer. Vorteil: GPU-beschleunigte Indizierung und fortgeschrittene Index-Optionen (IVF/HNSW/DiskANN).

Pinecone / Weaviate Cloud / Zilliz Cloud — Managed Services. Kein Betriebsaufwand, in Minuten produktionsbereit. Kosten: monatlich USD 70-1.500 für kleine bis mittlere Last, USD 3.000-15.000 für Enterprise-SLA. Aus KVKK-Sicht ist Datenstandort kritisch — Pinecone hat eine EU-Region, Weaviate bietet Self-Hosting oder AWS Frankfurt; ein DPA (Data Processing Agreement) ist im Vertrag Pflicht.

Entscheidungsmatrix:

Kriterium	pgvector	Qdrant	Milvus	Managed
Sweet-Spot-Skala	<500K	1M-50M	10M-1B+	Jede Skala
Betriebsaufwand	Niedrig	Mittel	Hoch	Keiner
Monatliche Infrastrukturkosten	TRY 500-3.000	TRY 3.000-15.000	TRY 10.000-40.000	USD 70-15.000
KVKK-Kontrolle	Voll	Voll	Voll	Vertragsabhängig
Hybrid Search	Manuell	Nativ	Nativ	Nativ
Latenz p95	30-100 ms	10-50 ms	5-30 ms	20-100 ms

Empfehlung: mit pgvector starten. Mit Annäherung an die 500K-Embedding-Grenze eine Qdrant-Migration planen. Ab 10 Mio. Milvus oder Managed Service in Betracht ziehen. Der Versuch, gleich groß zu wählen, erzeugt in den meisten Projekten Betriebs-Müdigkeit und unnötige Kosten.

3. Chunking-Strategie — Fixed Size reicht nicht

Der wichtigste einzelne Faktor der RAG-Qualität ist die Chunking-Strategie. Schlechte Chunks vergeuden selbst das weltweit beste Embedding-Modell. Drei Kernmuster:

Fixed-Size-Chunking — das Dokument wird in eine feste Tokenzahl aufgeteilt (z. B. 500 Tokens, 15 Prozent Overlap). Am einfachsten, am schnellsten; für Freitext (E-Mails, Chat-Logs) akzeptabel. Nachteil: Schnitte können mitten in Absätzen oder Sätzen landen; semantische Grenzen verschieben sich.

Strukturbewusstes Chunking — Aufteilung nach Dokumentstruktur: nach Markdown-Überschrift (#, ##), nach HTML-Section/Article-Tag, im PDF nach Schriftwechsel oder Bullet Points. Für technische Dokumente, Rechtstexte und Produkt-Specs ergibt sich 2-3-mal besserer Recall. Implementierung: fertige Parser in Unstructured.io, in LlamaIndex Node Parsers, in LangChain Text Splitters.

Semantisches Chunking — embedding-bewusste Aufteilung; ein neuer Chunk beginnt, wenn die Cosine-Distance zwischen zwei aufeinanderfolgenden Sätzen einen Schwellenwert überschreitet. Am ausgefeiltesten, aber rechenintensiv (zusätzlicher Embedding-Pass pro Dokument). Echter Mehrwert für komplexe, lange Texte (Fachartikel, Berichte).

Optimale Chunk-Größe ist domänenabhängig:

Dokumenttyp	Empfohlener Chunk	Overlap	Strategie
Vertrag, Rechtstext	600-900 Tokens	20 %	Strukturbewusst (Artikel/Absatz)
Technische Dokumentation	400-600 Tokens	15 %	Strukturbewusst (Überschriften)
Kundensupport-FAQ	200-400 Tokens	10 %	Q-A-Paar als ein Chunk
E-Mail, Chat-Log	300-500 Tokens	15 %	Fixed + Sliding Window
Fachartikel	500-800 Tokens	20 %	Semantisch
Code-Datei	Funktion als Ganzes	0	AST-bewusst (Tree-sitter)

In unserer AIGENCY-Pipeline klassifiziert zunächst ein Doc-Type-Classifier das Dokument (Vertrag / E-Mail / FAQ / Log / Artikel) und führt dann einen typspezifisch spezialisierten Chunker aus. Dieser Ansatz hat den Top-5-Recall im Vergleich zu einheitlichem Fixed-Chunking um 35 Prozent gehoben.

Dritter praktischer Punkt: Metadaten-Anreicherung. Heften Sie an jeden Chunk nicht nur Text, sondern auch Dokumenttitel, Section-Überschrift, Dokumenttyp, Source-URL, Sprache, Last-Updated-Datum und Autor. Bei der Retrieval ist diese Metadaten Gold für Filter (z. B. nur Dokumente der letzten 6 Monate); bei der Generierung ist sie Gold für die Quellenattribution.

4. Embedding-Modell — multilingual, dense, sparse, hybrid

Die Qualität des Embedding-Modells ist die Obergrenze der Retrieval-Qualität. Mit dem falschen Modell liefert auch das beste Chunking niedrigen Recall. Stand 2026 vier praktische Familien:

OpenAI text-embedding-3-large — 3072 Dimensionen, stark in Englisch, Türkisch und Arabisch, ca. USD 0,00013 pro Anfrage. In der Produktion populär, aber jede Anfrage geht zu OpenAI — aus KVKK-Sicht kann dies ein Datenstandort-Problem schaffen und erfordert einen DPA im Vertrag.

Cohere embed-multilingual-v3 — 1024 Dimensionen, 100+ Sprachen; in Türkisch und Arabisch etwas schwächer als OpenAI, aber dennoch stark. Cohere's EU-Region-Angebot ist ein Vorteil für KVKK. Kosten nah an OpenAI.

Open Source: BGE-M3, mE5-large, multilingual-MiniLM — self-hosted, läuft auf GPU. BGE-M3 kann in Dense-, Sparse- und Multi-Vector-Modi arbeiten (ähnlich Cohere's patentiertem Ansatz). Vorteile: volle KVKK-Kontrolle, keine Per-Query-Kosten, fine-tuning möglich. Nachteile: GPU-Betriebsaufwand; Roh-Latenz kann 2-5-mal höher sein als bei OpenAI/Cohere.

Domänenspezifisch fine-getunt — die Organisation fine-tuned BGE oder E5 contrastive auf eigenem Korpus. Training über 1-3 Epochen auf 5K-50K Query-Positive-Doc-Paaren hebt den Recall um 10-25 Prozent. Echter Mehrwert für domänenspezifische Sprache (Recht, Finanzen, Medizin).

Empfehlung: OpenAI oder Cohere für Piloten und PoCs; BGE-M3 self-hosted für KVKK-kritische Unternehmen; fine-getuntes BGE oder mE5 für reales Volumen und domänenspezifische Präzision. Ein Wechsel des Embedding-Modells verlangt das gesamte Korpus neu zu embedden — diese Kosten und Zeit gleich zu Beginn einkalkulieren (1 Mio. Dokumente × 2 Stunden Re-Embed × GPU-Stunden-Kosten).

5. Hybrid Search — Vector + BM25 + RRF

Reine Vector-Suche verfehlt bestimmte Anfragen:

Exakter Keyword-Treffer nötig (Produktcode XR-2050-A, Gesetz 5651)
Personen- und Ortsnamen (Embedding-Modelle repräsentieren Eigennamen schwach)
Akronyme und Fachbegriffe (KVKK, MASAK, TS 13638)
Negation (Systeme nicht KVKK-konform — Embeddings handhaben Negation schwach)

Lösung Hybrid Search: BM25 (sparse) + Vector (dense) laufen zusammen, Ergebnisse werden zusammengeführt. Zwei Merging-Ansätze:

Reciprocal Rank Fusion (RRF) — der Rang eines Dokuments in jedem System wird durch 1/(k+rank) geführt (k=60 Standard) und die zwei Scores werden summiert. Keine Score-Normalisierung nötig, robust. Standardwahl in Produktion.

Gewichteter Score — BM25-Score und Vector-Score werden separat normalisiert und anschließend mit Gewichten (z. B. 0,4 BM25, 0,6 Vector) verschmolzen. Gewichte müssen pro Domäne getuned werden; flexibler, aber tuning-intensiv.

Implementierung:

Vector-DB	Hybrid-Unterstützung
pgvector	Manuell (ts_vector + Cosine, im Code zusammengeführt)
Qdrant	Nativ (Fusion-API)
Weaviate	Nativ (Hybrid-Query)
Milvus	Nativ (BM25 + Vector + RRF)
Elasticsearch	Nativ (knn + match query)

In unseren Messungen hat Hybrid Search den Top-5-Recall um 18-32 Prozent und die Top-1-Genauigkeit (bestes Ergebnis) um 25-40 Prozent gegenüber reiner Vector-Suche gehoben. Außerhalb von PoCs behandeln wir es für jede produktive RAG als verpflichtend.

6. Reranker — der Präzisionsfilter der Pipeline

Die Retrieval-Phase ist schnell + breit (top-50, top-100 Dokumente); der Reranker ist langsam + präzise (ein Cross-Encoder bewertet jedes Query-Dokument-Paar einzeln und kürzt auf top-5). Die Mathematik des zweistufigen Ansatzes ist einfach: ein Bi-Encoder-Embedding wandelt Query und Dokument in getrennte Vektoren um und berechnet danach die Cosine-Distance — Information geht verloren. Ein Cross-Encoder gibt Query und Dokument dem Modell gemeinsam und erzeugt einen präziseren Score; weil aber jedes Query-Dokument-Paar einen separaten Modell-Call erfordert, ist er langsamer.

Praktischer Ablauf:

Query → Embedding → Vector-DB-Top-100-Retrieval (10-50 ms)
Top-100 → Reranker-Modell → Score pro Paar (50-300 ms für 100 Dokumente)
Top-5 / Top-10 → in LLM-Context platziert
LLM produziert die Antwort

Beliebte Reranker:

Cohere Rerank v3 — Managed API, USD 0,001-0,002 pro Anfrage, 100 ms Latenz. EU-Region für KVKK. Die häufigste Wahl in Produktion.
BGE Reranker (open source) — self-hosted, 50-150 ms auf GPU. Volle KVKK-Kontrolle, keine Per-Query-Kosten. Varianten: base/large/v2-m3.
ColBERT v2 — Late-Interaction-Architektur, Score pro Query-Token pro Dokument-Token. Am präzisesten, aber operativ komplex. Nur für sehr hohe Präzisions-Use-Cases.
Cross-Encoder ms-marco-MiniLM — kleines Modell, schnell (vertretbar selbst auf CPU), begrenzter Recall-Gewinn.

In AIGENCY nutzen wir Cohere Rerank v3 mit self-hosted BGE Reranker als Fallback. Automatischer Fallback bei Cohere-Ausfall hält das Latenz-Budget intakt.

Beweis des Reranker-Werts: in einem 200-Query-Benchmark lieferte Retrieval + LLM allein 62 Prozent Genauigkeit, Retrieval + Rerank + LLM stieg auf 84 Prozent. Für produktive RAG ist der Reranker nicht mehr optional — er wird als verpflichtende Schicht behandelt.

7. Evaluation-Framework — woher wissen Sie, dass das System wirklich funktioniert?

Der am häufigsten übersprungene Schritt in produktiver RAG ist die Evaluation. Das System geht in Produktion, weil die Demo funktioniert; drei Monate später beginnen die Klagen: warum sagt unser Modell Ich weiß nicht?. Lösung: kontinuierliche, dreischichtige Evaluation.

Schicht 1 — Retrieval-Evaluation. Ein Golden Dataset (50-200 manuell gelabelte Query-Positive-Doc-Paare) wird vorbereitet; das System liefert Top-K pro Query; Metriken:

Recall@K: liegt das richtige Dokument in Top-K?
MRR (Mean Reciprocal Rank): bei welchem Durchschnittsrang liegt das richtige Dokument?
NDCG: stufenbewertete Ranking-Qualität.

Automatisiert: Ragas, TruLens, Phoenix (Arize) und DeepEval-Frameworks liefern fertige Retrieval- und Generation-Eval-Patterns. Wöchentliche automatisierte Läufe + Dashboard sind der Mindeststandard in Unternehmensprojekten.

Schicht 2 — Generation-Evaluation. Qualität der LLM-Antwort:

Faithfulness: ist die Antwort treu zum Retrieved Context (keine Halluzination)?
Answer Relevance: antwortet die Antwort auf die Query?
Context Precision/Recall: wurde der nötige Kontext genutzt?

Das LLM-as-judge-Muster (GPT-4o oder Claude Opus wird gefragt bewerte die Quellentreue dieser Antwort, 1-5) ist schnell und skalierbar; aber subjektiv — quartalsweise menschliche Kalibrierung ist Pflicht (50-100 Sample manuelle Labels).

Schicht 3 — Produktions-Monitoring. Bei echten Nutzeranfragen:

Latenz-Verteilung (p50, p95, p99) — Retrieval-, Rerank- und LLM-Stufen getrennt.
Kosten pro Query — Token-Verbrauch und Vector-DB-Query-Kosten.
Daumen-rauf/runter-Feedback-Rate — Nutzerfeedback.
Ich-weiß-nicht / Clarification Rate — ist das Modell zu unsicher oder zu aggressiv?
Halluzinations-Spot-Check — wöchentlich manuelle Überprüfung von 20-50 zufälligen Queries.

Ohne dass alle drei Schichten zusammenlaufen, dauert die Erkennung einer RAG-Degradation Monate. Ein Embedding-Modell-Upgrade, eine Chunking-Parameter-Anpassung, ein Vector-DB-Index-Rebuild — all das kann die Qualität still senken. Die Integration einer Eval-Suite in die CI/CD-Pipeline (Retrieval-Eval-Lauf bei jedem PR, Block bei Regression) ermöglicht eine disziplinierte RAG-Evolution.

Unser AI-Governance-Rahmen erläutert, wie diese Evaluation-Schichten mit den Audit-Anforderungen des Unternehmens verzahnt werden. In Kombination mit der KVKK-Datenverantwortlichen-Pflicht dient diese Eval zugleich als rechtlicher Nachweis — eine dokumentierte Antwort auf wie funktioniert unser Modell, welcher Quelle ist es treu.

Praktische Zusammenfassung — Startcheckliste

Die richtige Reihenfolge für Ihr erstes produktives RAG-Projekt:

Ist RAG tatsächlich richtig? — wenn sich Wissen selten aktualisiert, eher Fine-Tuning; wenn kein Verhalten gelernt wird, eher RAG; wenn beides, Hybrid.
Doc Store: mit pgvector starten (<500K Embeddings); bei Volumenwachstum zu Qdrant migrieren. Managed Service nur wenn KVKK-DPA vorliegt.
Chunking: Doc-Type-Classifier + pro-typ spezialisierter Chunker. Fixed-Size nur für Freitext. Strukturbewusst wann immer möglich als Standard.
Embedding: mit OpenAI/Cohere starten (PoC); für Produktion BGE-M3 self-hosted oder domänenspezifisch fine-getunt in Betracht ziehen.
Hybrid Search: BM25 + Vector + RRF. Außerhalb von PoCs immer.
Reranker: Cohere Rerank oder BGE Reranker. In Produktion verpflichtend.
Evaluation: Golden Dataset → Retrieval-Eval → LLM-Judge → Produktions-Monitoring. Alle drei, automatisiert wöchentlich.
Metadaten: heften Sie Dokumenttitel, Section, Typ, Source-URL, Datum und Sprache an jeden Chunk. Gold für Filter und Attribution.
KVKK: Datenstandort (Modell, Vector-DB, Logs), DPA, Aufbewahrungspolitik, Nachvollziehbarkeit von aus Nutzerdaten abgeleiteten Daten.
Kontinuierliche Verbesserung: Feedback-Loop schließen — Produktions-Queries mit niedriger Bewertung analysieren, Golden Dataset aktualisieren, Chunker/Embedding/Reranker iterieren.

Diese Liste ist die Mindestdisziplin. Darüber hinaus kommen domänenspezifische Anforderungen (Zitate für Legal-RAG, Confidence-Threshold für Medical-RAG, Eskalations-Muster für Customer-Support-RAG). Um echten Wert aus RAG in Produktion zu ziehen, muss man von die Demo funktioniert zu das Evaluation-Framework läuft wöchentlich und alarmiert beim Bruch übergehen.

Unser Team in Şanlıurfa Karaköprü hat diese Disziplin verinnerlicht, indem es unsere AIGENCY-v4-Plattform auf einer RAG-lastigen Architektur betreibt und Enterprise-RAG-Systems-Engineering liefert. Für ein Unternehmens-RAG-Pilot, eine Vector-DB-Auswahl oder eine Bewertung einer produktionsreifen RAG-Architektur erreichen Sie uns über das Kontaktformular — das erste Bewertungsgespräch ist kostenlos.

eCloud Tech — Ein in Şanlıurfa (Türkei) ansässiges Team für Unternehmenssoftware, KI, Blockchain und Cybersicherheit. Building Tomorrow.

Häufig gestellte Fragen

Die Entscheidung hängt von drei Variablen ab. (1) Skala: Bis 100K Embeddings reicht PostgreSQL plus die pgvector-Erweiterung; eine Datenbank, ein Backup, ein Ops-Team. Zwischen 1 und 10 Mio. werden Qdrant oder Milvus bevorzugt — HNSW/IVF-Indizierung und Filter-Performance sind deutlich besser als bei einer klassischen DB. Ab 10 Mio. sind Milvus oder Managed Services (Pinecone, Weaviate Cloud) realistisch. (2) Operativer Aufwand: pgvector läuft auf dem PostgreSQL, das Sie ohnehin haben; Qdrant verlangt einen eigenen Cluster mit separaten Backup- und Upgrade-Routinen. Für kleine Teams ist pgvector ein Lebensretter. (3) Filter- und Metadaten-Anforderungen: Qdrants Payload-Filter ist in Produktion vorhersehbarer; die pgvector-GiST/SP-GiST-Kombination ist ebenfalls stark, erfordert aber Tuning-Aufwand. Empfehlung: unter 500K mit pgvector starten und bei Bedarf zu Qdrant migrieren.