RAG системи — Курсова работа

§01

Проблемът — защо LLM не стигат

REV.A · SHEET 02/08

Големите езикови модели демонстрират впечатляващи способности. Въпреки това, те имат фундаментални ограничения, които правят директната им употреба ненадеждна в production среда.

HALLUCINATION

Халюцинации

Моделът генерира убедителни, но фактически неверни отговори. Не разграничава знание от вероятностно продължение.

STALE DATA

Остаряла информация

Обучителните данни имат cutoff дата. Нови закони, актуализации, текущи събития — невидими.

NO DOMAIN

Липса на специфика

Вътрешна документация, частни бази данни, специализирани области — извън обучителния корпус.

Как можем да дадем на езиковите модели достъп до актуални, точни и специфични знания, без повторно обучение?

Отговор: RAG — Retrieval-Augmented Generation.

§02

Какво е RAG

REV.A · SHEET 03/08

Retrieval-Augmented Generation — архитектурен подход, при който езиковият модел се свързва с външни източници на знания по време на генериране. Въведен от Lewis et al. (2020).

01RETRIEVE

Извличане

Заявката се трансформира в embedding вектор. Търсят се най-релевантните документи.

02AUGMENT

Обогатяване

Извлечените документи се добавят към промпта като контекст.

03GENERATE

Генериране

LLM генерира отговор базиран на предоставения контекст.

→→

Критерий	Fine-tune	Prompt Eng	RAG
Актуалност	Ниска	Средна	Висока
Цена	Висока	Ниска	Средна
Гъвкавост	Ниска	Висока	Висока
Прозрачност	Ниска	Средна	Висока
Скалируемост	Трудна	Ограничена	Добра

§03

Компоненти на RAG система

REV.A · SHEET 04/08

Embedding моделите преобразуват текст в числови вектори (768–4096d). Семантично близки текстове получават близки вектори.

embedIN "Котката спи на дивана" → [0.12, 0.85, ...]

embedIN "Котето дреме на канапето" → [0.13, 0.84, ...]

cosineOK similarity = 0.97

embedIN "Цената на биткойн расте" → [0.91, 0.02, ...]

cosine-- similarity = 0.12

Модели: OpenAI text-embedding-3 · Google Gemini · BGE-M3 (OSS)

EMBEDDING SPACE PROJECTION

Документите се разделят на фрагменти (chunks) за индексиране. Стратегията пряко влияе на качеството на извличане.

FIXED

Фиксиран размер

Всеки N токена с overlap. Просто, но раздробява контекст.

SEMANTIC

Семантично

По смислови граници — параграфи, теми. По-добро качество.

RECURSIVE

Рекурсивно

Глави → параграфи → изречения. Баланс между контекст и гранулярност.

sparse

BM25

Пълнотекстово търсене. Точно съвпадение на ключови думи. Бърз.

dense

Vector Search

Cosine similarity между embeddings. Разбира семантика — намира парафрази.

hybrid

Hybrid Search

BM25 + Vector с настройваеми тегла. RRF обединява резултатите.

Структурирано представяне чрез ентитети (nodes) и релации (edges). Проследяват многостъпкови връзки — за разлика от векторното търсене.

EDGE Лилит --[използва]--> sqlite-vec

EDGE Лилит --[работи_на]--> Hetzner

EDGE sqlite-vec --[поддържа]--> cosine

EDGE sqlite-vec --[поддържа]--> BM25

queryBFS Лилит → sqlite-vec → cosine, BM25

Reranking — вторично класиране с по-мощен модел. MMR балансира релевантност и разнообразие.

MMR = λ · Sim(doc, query) − (1−λ) · max(Sim(doc, D_sel))

λ контролира баланса: релевантност ↔ разнообразие

§04

Система «Лилит» — case study

REV.A · SHEET 05/08

Self-hosted RAG система в продукция. Тристепенна архитектура за памет, Telegram бот интерфейс, hybrid search с knowledge graph.

HOTСесийно състояние

OpenClaw Gateway · JSONL · Working set

<30msLATENCY

WARMВекторна база данни

sqlite-vec · BM25 + cosine · Gemini 4096d · MMR

16.5KRECORDS

COLDObsidian Vault

Syncthing P2P · PARA · inotify watcher

P2PSYNC

MEMORY DEPTH0

KG ENTITIES0

KG EDGES0

PREDICATES0

EDGE PREDICATES

usesimportsmodifiescausesfixesdepends_onrelated_toworks_atprefersblocked_bycaused_byoptimizes_forrejectedavoidslocated_insucceeded_by

INBOUND

Потребителят изпраща заявка чрез Telegram

CLASSIFY

Plugin преценява: нетривиална заявка? Ако не — skip

BM25 + Vector cosine + KG-BFS паралелно. RRF fusion

INJECT

Top-8 резултата (score > 0.005) в промпта с token budget

GENERATE

Claude Sonnet генерира отговор с обогатен контекст

§05

Live RAG — Retrieval Demo

REV.A · SHEET 06/09

Реално BM25 търсене по knowledge base от 48 документа. Въведи заявка — виж кои документи се извличат, с какъв score, и как се сглобява контекстът за LLM.

§05.5

AI Chat — RAG в действие

REV.A · SHEET —

Задай въпрос. Вдясно виж в реално време как системата сканира48 документа, ранжира резултатите и подава контекст към LLM (Llama 3.3 70B via Groq).

GROQ API KEYor pass ?k=gsk_... in URL

CHAT · LLAMA-3.3-70BREADY

Въведи API ключ за да започнеш.

SMART SEARCH · REAL-TIMEKB: 48 docs

Очакване на заявка...

§06

Предимства и ограничения

REV.A · SHEET 07/08

●

Актуални данни без повторно обучение

●

По-малко халюцинации — генерация от реални документи

●

Domain-specific знания — вътрешни бази, частна информация

●

Прозрачност — всеки отговор свързан с конкретни източници

●

Ефективност — без GPU ресурси за fine-tuning

●

Допълнителна латентност: 50–500ms за извличане

●

Качество зависи от retriever — грешен chunk = грешен отговор

●

Поддръжка на индекс — chunking, re-indexing, мониторинг

●

Контекстен прозорец ограничава количеството извлечена информация

●

Сложност — vector DB, embedding модел, retriever, reranker

§07

Бъдеще на RAG

REV.A · SHEET 08/08

AGENTIC

Agentic RAG

Агентите сами решават кога и как да търсят. Итеративно усъвършенстват заявки.

REFLECTIVE

Self-Reflective Retrieval

Моделът оценява качеството на извлечените документи. CRAG, Self-RAG.

MULTIMODAL

Multi-modal RAG

Извличане от изображения, аудио, видео. GPT-4V, Gemini.

GRAPH

Graph RAG

Графи на знания + векторно търсене. Microsoft Research. Hybrid стандарт.

§08

Източници

REV.A · SHEET —

Lewis et al. (2020) — Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS.

Gao et al. (2024) — Retrieval-Augmented Generation for Large Language Models: A Survey. arXiv:2312.10997.

Yan et al. (2024) — Corrective Retrieval Augmented Generation (CRAG). arXiv:2401.15884.

Edge et al. (2024) — From Local to Global: A Graph RAG Approach. Microsoft Research.

Robertson & Zaragoza (2009) — The Probabilistic Relevance Framework: BM25 and Beyond. FnTIR.

Carbonell & Goldstein (1998) — MMR Diversity-Based Reranking. SIGIR.

Muennighoff et al. (2023) — MTEB: Massive Text Embedding Benchmark. arXiv:2210.07316.

Internal (2026) — Проектна документация на система «Лилит». Private.