Обучение бота новым знаниям.
Базы знаний, базы данных, промпт.

Какой из способов обучения выбрать? В этом материале мы рассмотрим три основных способа передачи вашему боту новых знаний.

1. Embeddings (Векторные представления)

Для текстовой базы знаний на векторной основе минимальный объем данных, который имеет смысл, начинается примерно с 10,000 символов, но для большинства практических приложений рекомендуется стремиться к объему от 100,000 символов и выше. Это обеспечит более надежные и разнообразные результаты.

При формировании базы знаний списываются токены на весь её объем, поэтому будьте аккуратны, когда загружаете целые книги!

Вы можете загрузить любой файл в формате PDF, TXT (в кодировке UTF8), XLSX, DOCX, PPTX. По умолчанию ваша база будет автоматически разбита на блоки (по такому же принципу как это сделано в OpenAi). Однако, вы можете использовать дополнительные настройки, чтобы самостоятельно регулировать это разбиение.

Что такое Embedding?

Embedding - это метод преобразования текстовой информации в числовые векторы, где семантически близкие понятия располагаются рядом в многомерном пространстве.

Как работает Embedding?

Текст разбивается на токены. Каждому токену присваивается векторное представление. Близкие по смыслу слова получают похожие векторные представления. При поиске система находит наиболее близкие по смыслу векторы.

✅ Преимущества:

  • Хорошо работает с текстовыми описаниями
  • Понимает семантические связи
  • Может интерпретировать контекст

❌ Ограничения:

  • Менее эффективен для точных значений и артикулов
  • Сложно контролировать процесс поиска

2. Базы данных (табличный метод) через функции

Для работы с базами данных в качестве знаний для ИИ агентов ProTalk можно использовать следующие функции:

🔗 - №109 Получение данных из таблицы Airtable
🔗 - №145 Чтение базы данных в Notion v.2
🔗 - №201 База данных в виде Google таблицы

Применение:

  • Прайс-листы
  • Каталоги товаров
  • Точные значения и артикулы

Особенности:

  • Структурированное хранение данных
  • Точный поиск по параметрам
  • Подключается через функции

3. Встраивание знаний в промпт

Подходит для небольших и средних объемов данных:

до 50К символов у LLM к контекстным окном 128К
до 500К символов у LLM к контекстным окном 1M

Преимущество такого метода обучения - высокая надежность и простота реализации. Рекомендуем использовать для этого внешний промпт, разместив его в Google Документе или Notion. Это удобно для совместного редактирования и управления длинными текстами, которые могут превышать 100 тысяч символов (включая сам промпт, ваши знания, все функции и контекстное окно диалога).

Внешний промпт позволяет команде экспертов работать над настройками бота в одном документе, добавляя комментарии и правки.

Вы можете отделить промпт от комментариев к нему:

##ROLE_START##

Тут промпт целиком

##ROLE_END##

Тут можно комментировать, это в промпт не попадет

Рекомендации по выбору метода обучения Ai агента


  • Для семантического поиска и текстовых описаний → Embeddings
  • Для точных значений и структурированных данных → Базы данных
  • Для небольших (до 500К символов) объёмов текстовых знаний → Встраивание в промпт

© ProTalk 2023-2025 ИП Горелов Максим Николаевич ИНН 500104951533 ОГРН 309500106900065 

Новая, 8, 9 Реутов, Московская область 143964 Россия