Databricks совершила важный шаг в демократизации работы с неструктурированными данными, выпустив 16 апреля 2026 года функцию ai_parse_document в общий доступ (GA) и представив бета-версию ai_prep_search. Эти две SQL-функции позволяют предприятиям за одну декларативную SQL-команду преобразовать PDF-файлы, изображения, документы Word и презентации PowerPoint в структурированные данные, готовые для векторного поиска и RAG-пайплайнов. До этого для аналогичной задачи компаниям требовалось выстраивать сложные цепочки из OCR-систем, регулярных выражений и кастомных ETL-скриптов.
Функция ai_parse_document обрабатывает документы объёмом до 500 страниц и 100 МБ, сохраняя структуру таблиц с объединёнными ячейками, автоматически генерируя описания для графиков и диаграмм, а также создавая пространственные метаданные для точного цитирования. Результаты сохраняются в Unity Catalog и интегрируются со Spark Declarative Pipelines для инкрементальной обработки миллионов документов с логикой повторных попыток и отслеживанием изменений. «Ваши документы теперь ведут себя как таблицы — их можно искать через векторный поиск и использовать в рабочих процессах Agent Bricks», — заявила команда Mosaic Research компании Databricks.
«Извлечение таблиц и метаданных из PDF теперь сводится к одной SQL-функции, что радикально упрощает обработку неструктурированных данных», — отметил Раджеш Балакришнан, главный дата-сайентист TE Connectivity. Ханте Джонсон, ведущий дата-сайентист Emerson Electric, подтвердил: «ai_parse_document позволяет параллельно парсить документы прямо в тех Delta-таблицах, которые вы уже используете». По оценке аналитика Forrester Чарли Дая, «с ai_parse парсинг становится декларативным и управляемым моделью, что снижает инженерные накладные расходы».
Новая функция ai_prep_search, вышедшая в бета-версии 8 апреля, дополняет ai_parse_document, автоматически трансформируя структурированный вывод в оптимизированные чанки для векторного поиска и RAG. Это создаёт полностью SQL-нативный конвейер: от загрузки неструктурированного документа до семантического поиска по его содержимому — без единой строки Python-кода. Параллельно Databricks выпустила инструмент оценки качества извлечения для Mosaic AI Vector Search, позволяющий измерять и сравнивать релевантность различных стратегий поиска.
Выход ai_parse_document в GA обостряет конкуренцию с Snowflake, которая в марте 2026 года представила Project SnowWork — платформу агентного ИИ для автоматизации бизнес-процессов. Snowflake развивает концепцию Agentic Document Analytics, выходящую за рамки классического RAG: вместо «найти и извлечь» система предлагает парадигму «запросить и проанализировать», позволяя агрегировать информацию из тысяч документов одним запросом. Databricks, в свою очередь, делает ставку на стоимость: компания заявляет о 3-5-кратном преимуществе в цене по сравнению с конкурентами.
Аналитик Futurum Group Брэдли Шиммин подчеркнул: «На рынке, где два лидера имеют очень похожие общие посылы, такая экономия на базовых рабочих нагрузках может стать очень убедительным аргументом». Тенденция очевидна: векторные базы данных превращаются из отдельной категории продуктов в стандартный тип данных — PostgreSQL, Oracle, MongoDB и другие традиционные СУБД уже добавили нативную поддержку векторов. Databricks и Snowflake фактически ведут гонку за то, кто первым сделает ИИ-обработку документов такой же простой, как обычный SQL-запрос, и победитель этой гонки определит стандарт корпоративного RAG на годы вперёд.



