X: 1440.00mmY: 900.00mm
REV.A · SHEET 01/08

Архитектурна схема на RAG.

Технически чертёж на Retrieval-Augmented Generation — как езиковите модели използват външни източници на знания. Курсова работа, тема №4, 2026.

SCALE1 : 1 production
STACKsqlite-vec · Gemini 4096d · BM25
P50312ms retrieve + 894ms generate
Ktop-8 MMR · score > 0.005
Разгледай чертежа
EMBEDembed(query)RETRIEVEhybrid_search()BM25 + cosineGENERATEclaude_sonnet()4096dhybridsonnet
SCROLL
§01

Проблемът — защо LLM не стигат

REV.A · SHEET 02/08

Големите езикови модели демонстрират впечатляващи способности. Въпреки това, те имат фундаментални ограничения, които правят директната им употреба ненадеждна в production среда.

HALLUCINATION

Халюцинации

Моделът генерира убедителни, но фактически неверни отговори. Не разграничава знание от вероятностно продължение.

STALE DATA

Остаряла информация

Обучителните данни имат cutoff дата. Нови закони, актуализации, текущи събития — невидими.

NO DOMAIN

Липса на специфика

Вътрешна документация, частни бази данни, специализирани области — извън обучителния корпус.

Как можем да дадем на езиковите модели достъп до актуални, точни и специфични знания, без повторно обучение?

Отговор: RAG — Retrieval-Augmented Generation.

§02

Какво е RAG

REV.A · SHEET 03/08

Retrieval-Augmented Generation — архитектурен подход, при който езиковият модел се свързва с външни източници на знания по време на генериране. Въведен от Lewis et al. (2020).

01RETRIEVE

Извличане

Заявката се трансформира в embedding вектор. Търсят се най-релевантните документи.

02AUGMENT

Обогатяване

Извлечените документи се добавят към промпта като контекст.

03GENERATE

Генериране

LLM генерира отговор базиран на предоставения контекст.

КритерийFine-tunePrompt EngRAG
АктуалностНискаСреднаВисока
ЦенаВисокаНискаСредна
ГъвкавостНискаВисокаВисока
ПрозрачностНискаСреднаВисока
СкалируемостТруднаОграниченаДобра
§03

Компоненти на RAG система

REV.A · SHEET 04/08

Embedding моделите преобразуват текст в числови вектори (768–4096d). Семантично близки текстове получават близки вектори.

embedIN "Котката спи на дивана" → [0.12, 0.85, ...]
embedIN "Котето дреме на канапето" → [0.13, 0.84, ...]
cosineOK similarity = 0.97
embedIN "Цената на биткойн расте" → [0.91, 0.02, ...]
cosine-- similarity = 0.12
Модели: OpenAI text-embedding-3 · Google Gemini · BGE-M3 (OSS)

EMBEDDING SPACE PROJECTION

Документите се разделят на фрагменти (chunks) за индексиране. Стратегията пряко влияе на качеството на извличане.

FIXED

Фиксиран размер

Всеки N токена с overlap. Просто, но раздробява контекст.

SEMANTIC

Семантично

По смислови граници — параграфи, теми. По-добро качество.

RECURSIVE

Рекурсивно

Глави → параграфи → изречения. Баланс между контекст и гранулярност.

sparse
BM25

Пълнотекстово търсене. Точно съвпадение на ключови думи. Бърз.

dense
Vector Search

Cosine similarity между embeddings. Разбира семантика — намира парафрази.

hybrid
Hybrid Search

BM25 + Vector с настройваеми тегла. RRF обединява резултатите.

Структурирано представяне чрез ентитети (nodes) и релации (edges). Проследяват многостъпкови връзки — за разлика от векторното търсене.

EDGE Лилит --[използва]--> sqlite-vec
EDGE Лилит --[работи_на]--> Hetzner
EDGE sqlite-vec --[поддържа]--> cosine
EDGE sqlite-vec --[поддържа]--> BM25
queryBFS Лилит → sqlite-vec → cosine, BM25

Reranking — вторично класиране с по-мощен модел. MMR балансира релевантност и разнообразие.

MMR = λ · Sim(doc, query) − (1−λ) · max(Sim(doc, Dsel))

λ контролира баланса: релевантност ↔ разнообразие

§04

Система «Лилит» — case study

REV.A · SHEET 05/08

Self-hosted RAG система в продукция. Тристепенна архитектура за памет, Telegram бот интерфейс, hybrid search с knowledge graph.

L0
HOTСесийно състояние
OpenClaw Gateway · JSONL · Working set
<30msLATENCY
L1
WARMВекторна база данни
sqlite-vec · BM25 + cosine · Gemini 4096d · MMR
16.5KRECORDS
L2
COLDObsidian Vault
Syncthing P2P · PARA · inotify watcher
P2PSYNC
MEMORY DEPTH0
KG ENTITIES0
KG EDGES0
PREDICATES0
EDGE PREDICATES
usesimportsmodifiescausesfixesdepends_onrelated_toworks_atprefersblocked_bycaused_byoptimizes_forrejectedavoidslocated_insucceeded_by
01
INBOUND

Потребителят изпраща заявка чрез Telegram

02
CLASSIFY

Plugin преценява: нетривиална заявка? Ако не — skip

03
SEARCH

BM25 + Vector cosine + KG-BFS паралелно. RRF fusion

04
INJECT

Top-8 резултата (score > 0.005) в промпта с token budget

05
GENERATE

Claude Sonnet генерира отговор с обогатен контекст

§05

Live RAG — Retrieval Demo

REV.A · SHEET 06/09

Реално BM25 търсене по knowledge base от 48 документа. Въведи заявка — виж кои документи се извличат, с какъв score, и как се сглобява контекстът за LLM.

§05.5

AI Chat — RAG в действие

REV.A · SHEET

Задай въпрос. Вдясно виж в реално време как системата сканира48 документа, ранжира резултатите и подава контекст към LLM (Llama 3.3 70B via Groq).

GROQ API KEYor pass ?k=gsk_... in URL
CHAT · LLAMA-3.3-70BREADY
Въведи API ключ за да започнеш.
SMART SEARCH · REAL-TIMEKB: 48 docs
Очакване на заявка...
§06

Предимства и ограничения

REV.A · SHEET 07/08

Актуални данни без повторно обучение

По-малко халюцинации — генерация от реални документи

Domain-specific знания — вътрешни бази, частна информация

Прозрачност — всеки отговор свързан с конкретни източници

Ефективност — без GPU ресурси за fine-tuning

Допълнителна латентност: 50–500ms за извличане

Качество зависи от retriever — грешен chunk = грешен отговор

Поддръжка на индекс — chunking, re-indexing, мониторинг

Контекстен прозорец ограничава количеството извлечена информация

Сложност — vector DB, embedding модел, retriever, reranker

§07

Бъдеще на RAG

REV.A · SHEET 08/08
AGENTIC

Agentic RAG

Агентите сами решават кога и как да търсят. Итеративно усъвършенстват заявки.

REFLECTIVE

Self-Reflective Retrieval

Моделът оценява качеството на извлечените документи. CRAG, Self-RAG.

MULTIMODAL

Multi-modal RAG

Извличане от изображения, аудио, видео. GPT-4V, Gemini.

GRAPH

Graph RAG

Графи на знания + векторно търсене. Microsoft Research. Hybrid стандарт.

§08

Източници

REV.A · SHEET
01
Lewis et al. (2020)Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS.
02
Gao et al. (2024)Retrieval-Augmented Generation for Large Language Models: A Survey. arXiv:2312.10997.
03
Yan et al. (2024)Corrective Retrieval Augmented Generation (CRAG). arXiv:2401.15884.
04
Edge et al. (2024)From Local to Global: A Graph RAG Approach. Microsoft Research.
05
Robertson & Zaragoza (2009)The Probabilistic Relevance Framework: BM25 and Beyond. FnTIR.
06
Carbonell & Goldstein (1998)MMR Diversity-Based Reranking. SIGIR.
07
Muennighoff et al. (2023)MTEB: Massive Text Embedding Benchmark. arXiv:2210.07316.
08
Internal (2026)Проектна документация на система «Лилит». Private.