нейросети20 апреля 2026 г.

Databricks превратила SQL в универсальный инструмент для RAG: функции ai_parse_document и ai_prep_search меняют подход к работе с неструктурированными данными

Databricks выпустила в общий доступ функцию ai_parse_document и бета-версию ai_prep_search, которые позволяют одной SQL-командой парсить PDF, изображения и Word-документы, а затем автоматически подготавливать их для векторного поиска и RAG-пайплайнов. Решение в 3-5 раз дешевле аналогов и конкурирует напрямую со Snowflake Intelligence.

Databricks совершила важный шаг в демократизации работы с неструктурированными данными, выпустив 16 апреля 2026 года функцию ai_parse_document в общий доступ (GA) и представив бета-версию ai_prep_search. Эти две SQL-функции позволяют предприятиям за одну декларативную SQL-команду преобразовать PDF-файлы, изображения, документы Word и презентации PowerPoint в структурированные данные, готовые для векторного поиска и RAG-пайплайнов. До этого для аналогичной задачи компаниям требовалось выстраивать сложные цепочки из OCR-систем, регулярных выражений и кастомных ETL-скриптов.

Функция ai_parse_document обрабатывает документы объёмом до 500 страниц и 100 МБ, сохраняя структуру таблиц с объединёнными ячейками, автоматически генерируя описания для графиков и диаграмм, а также создавая пространственные метаданные для точного цитирования. Результаты сохраняются в Unity Catalog и интегрируются со Spark Declarative Pipelines для инкрементальной обработки миллионов документов с логикой повторных попыток и отслеживанием изменений. «Ваши документы теперь ведут себя как таблицы — их можно искать через векторный поиск и использовать в рабочих процессах Agent Bricks», — заявила команда Mosaic Research компании Databricks.

«Извлечение таблиц и метаданных из PDF теперь сводится к одной SQL-функции, что радикально упрощает обработку неструктурированных данных», — отметил Раджеш Балакришнан, главный дата-сайентист TE Connectivity. Ханте Джонсон, ведущий дата-сайентист Emerson Electric, подтвердил: «ai_parse_document позволяет параллельно парсить документы прямо в тех Delta-таблицах, которые вы уже используете». По оценке аналитика Forrester Чарли Дая, «с ai_parse парсинг становится декларативным и управляемым моделью, что снижает инженерные накладные расходы».

Новая функция ai_prep_search, вышедшая в бета-версии 8 апреля, дополняет ai_parse_document, автоматически трансформируя структурированный вывод в оптимизированные чанки для векторного поиска и RAG. Это создаёт полностью SQL-нативный конвейер: от загрузки неструктурированного документа до семантического поиска по его содержимому — без единой строки Python-кода. Параллельно Databricks выпустила инструмент оценки качества извлечения для Mosaic AI Vector Search, позволяющий измерять и сравнивать релевантность различных стратегий поиска.

Выход ai_parse_document в GA обостряет конкуренцию с Snowflake, которая в марте 2026 года представила Project SnowWork — платформу агентного ИИ для автоматизации бизнес-процессов. Snowflake развивает концепцию Agentic Document Analytics, выходящую за рамки классического RAG: вместо «найти и извлечь» система предлагает парадигму «запросить и проанализировать», позволяя агрегировать информацию из тысяч документов одним запросом. Databricks, в свою очередь, делает ставку на стоимость: компания заявляет о 3-5-кратном преимуществе в цене по сравнению с конкурентами.

Аналитик Futurum Group Брэдли Шиммин подчеркнул: «На рынке, где два лидера имеют очень похожие общие посылы, такая экономия на базовых рабочих нагрузках может стать очень убедительным аргументом». Тенденция очевидна: векторные базы данных превращаются из отдельной категории продуктов в стандартный тип данных — PostgreSQL, Oracle, MongoDB и другие традиционные СУБД уже добавили нативную поддержку векторов. Databricks и Snowflake фактически ведут гонку за то, кто первым сделает ИИ-обработку документов такой же простой, как обычный SQL-запрос, и победитель этой гонки определит стандарт корпоративного RAG на годы вперёд.

Попробуйте нейросети в MashaGPT

GPT-5, Claude, Gemini, генерация изображений и видео — всё в одном месте

Попробовать бесплатно

Источник:Databricks Blog / InfoWorld

ПредыдущаяПринстонская лаборатория запустила STELLAR-AI: ИИ-платформа ускоряет моделирование термоядерного синтеза с месяцев до миллисекунд СледующаяSorenson представила ИИ-переводчик жестового языка: аватар и распознавание ASL устранят барьеры для глухих

Databricks превратила SQL в универсальный инструмент для RAG: функции ai_parse_document и ai_prep_search меняют подход к работе с неструктурированными данными

Читайте также

Aspen Dental развернула ИИ-диагностику в 1 100 клиниках за 6 недель: крупнейшее внедрение искусственного интеллекта в стоматологии

TELUS запустила первого в мире ИИ-ассистента умного дома с генеративным интерфейсом: 2 000 устройств в одном приложении

ИИ революционизирует хлебопечение: от ферментации до контроля качества — нейросети повышают точность до 96%

NVIDIA представила Blackwell B300 — GPU для AI нового поколения

ВКонтакте добавила AI-генератор постов для бизнес-страниц

100 автономных электрогрузовиков XCMG работают на крупнейшем руднике Китая: ИИ и 5G меняют горнодобычу