Технически чертёж на Retrieval-Augmented Generation — как езиковите модели използват външни източници на знания. Курсова работа, тема №4, 2026.
Големите езикови модели демонстрират впечатляващи способности. Въпреки това, те имат фундаментални ограничения, които правят директната им употреба ненадеждна в production среда.
Моделът генерира убедителни, но фактически неверни отговори. Не разграничава знание от вероятностно продължение.
Обучителните данни имат cutoff дата. Нови закони, актуализации, текущи събития — невидими.
Вътрешна документация, частни бази данни, специализирани области — извън обучителния корпус.
Как можем да дадем на езиковите модели достъп до актуални, точни и специфични знания, без повторно обучение?
Отговор: RAG — Retrieval-Augmented Generation.
Retrieval-Augmented Generation — архитектурен подход, при който езиковият модел се свързва с външни източници на знания по време на генериране. Въведен от Lewis et al. (2020).
Заявката се трансформира в embedding вектор. Търсят се най-релевантните документи.
Извлечените документи се добавят към промпта като контекст.
LLM генерира отговор базиран на предоставения контекст.
| Критерий | Fine-tune | Prompt Eng | RAG |
|---|---|---|---|
| Актуалност | Ниска | Средна | Висока |
| Цена | Висока | Ниска | Средна |
| Гъвкавост | Ниска | Висока | Висока |
| Прозрачност | Ниска | Средна | Висока |
| Скалируемост | Трудна | Ограничена | Добра |
Embedding моделите преобразуват текст в числови вектори (768–4096d). Семантично близки текстове получават близки вектори.
Документите се разделят на фрагменти (chunks) за индексиране. Стратегията пряко влияе на качеството на извличане.
Всеки N токена с overlap. Просто, но раздробява контекст.
По смислови граници — параграфи, теми. По-добро качество.
Глави → параграфи → изречения. Баланс между контекст и гранулярност.
Пълнотекстово търсене. Точно съвпадение на ключови думи. Бърз.
Cosine similarity между embeddings. Разбира семантика — намира парафрази.
BM25 + Vector с настройваеми тегла. RRF обединява резултатите.
Структурирано представяне чрез ентитети (nodes) и релации (edges). Проследяват многостъпкови връзки — за разлика от векторното търсене.
Reranking — вторично класиране с по-мощен модел. MMR балансира релевантност и разнообразие.
MMR = λ · Sim(doc, query) − (1−λ) · max(Sim(doc, Dsel))λ контролира баланса: релевантност ↔ разнообразие
Self-hosted RAG система в продукция. Тристепенна архитектура за памет, Telegram бот интерфейс, hybrid search с knowledge graph.
Потребителят изпраща заявка чрез Telegram
Plugin преценява: нетривиална заявка? Ако не — skip
BM25 + Vector cosine + KG-BFS паралелно. RRF fusion
Top-8 резултата (score > 0.005) в промпта с token budget
Claude Sonnet генерира отговор с обогатен контекст
Реално BM25 търсене по knowledge base от 48 документа. Въведи заявка — виж кои документи се извличат, с какъв score, и как се сглобява контекстът за LLM.
Задай въпрос. Вдясно виж в реално време как системата сканира48 документа, ранжира резултатите и подава контекст към LLM (Llama 3.3 70B via Groq).
Актуални данни без повторно обучение
По-малко халюцинации — генерация от реални документи
Domain-specific знания — вътрешни бази, частна информация
Прозрачност — всеки отговор свързан с конкретни източници
Ефективност — без GPU ресурси за fine-tuning
Допълнителна латентност: 50–500ms за извличане
Качество зависи от retriever — грешен chunk = грешен отговор
Поддръжка на индекс — chunking, re-indexing, мониторинг
Контекстен прозорец ограничава количеството извлечена информация
Сложност — vector DB, embedding модел, retriever, reranker
Агентите сами решават кога и как да търсят. Итеративно усъвършенстват заявки.
Моделът оценява качеството на извлечените документи. CRAG, Self-RAG.
Извличане от изображения, аудио, видео. GPT-4V, Gemini.
Графи на знания + векторно търсене. Microsoft Research. Hybrid стандарт.