Query DSL - язык запросов OpenSearch

OpenSearch предоставляет мощный язык запросов (Query Domain-Specific Language), основанный на JSON-синтаксисе. Этот язык позволяет выполнять гибкий и точный поиск по данным.

Введение в Query DSL

Базовый пример запроса:

GET testindex/_search
{
  "query": {
    "match_all": {}
  }

Этот запрос возвращает все документы в указанном индексе.

Типы запросов

Запросы делятся на две основные категории:

1. Листовые запросы (Leaf queries)

Особенности:

Выполняют поиск по конкретным полям
Могут использоваться самостоятельно
Не содержат других запросов

Основные типы:

1.1 Полнотекстовые запросы:

Анализируют текст запроса
Применяют тот же анализатор, что и при индексации
Примеры: match, match_phrase, multi_match

1.2 Термино-уровневые запросы:

Ищут точные значения без анализа текста
Не учитывают релевантность
Примеры: term, terms, range, exists

1.3 Геопространственные запросы:

Работают с географическими данными
Примеры: geo_distance, geo_bounding_box

1.4 Запросы соединений:

Для работы с вложенными документами
Примеры: nested, has_child, has_parent

1.5 Позиционные запросы (Span queries):

Точный поиск с учетом позиции терминов
Часто используются для юридических документов

1.6 Специализированные запросы:

more_like_this - поиск похожих документов
script - запросы с использованием скриптов
percolate - обратный поиск

2. Составные запросы (Compound queries)

Особенности:

Объединяют несколько запросов
Модифицируют поведение дочерних запросов
Управляют логикой выполнения

Основные типы:

bool - булева комбинация запросов
dis_max - поиск по нескольким полям
constant_score - задает фиксированную релевантность
function_score - кастомные алгоритмы релевантности

Особенности обработки специальных символов

Проблема: Стандартный анализатор некорректно обрабатывает Unicode-символы (например, дефис), что может привести к:

Неожиданным результатам поиска
Проблемам контроля доступа

Пример проблемы:

{
  "match": {
    "user.id": "User-1" 
  }
}

Анализатор может интерпретировать “User-1” как два отдельных термина.

Решение:

Использовать keyword тип поля для точного совпадения
Настроить кастомный анализатор

Ресурсоемкие запросы

Типы затратных запросов:

Нечеткий поиск (fuzzy)
Поиск по префиксу (prefix)
Диапазонные запросы по текстовым полям
Регулярные выражения (regexp)
Wildcard-запросы
Сложные query_string запросы

Защита от ресурсоемких запросов:

PUT _cluster/settings
{
  "persistent": {
    "search.allow_expensive_queries": false
  }
}

Мониторинг: Для отслеживания медленных запросов используйте shard slow logs.

Контекст запроса и фильтра

Запросы состоят из условий (query clauses), которые могут выполняться в Контексте фильтра - проверяет соответствие документа условию Да/Нет и Контексте запроса - оценивает степень соответствия документа условию с расчетом релевантности

Сравнение термовых и полнотекстовых запросов

Термовые (term-level) и полнотекстовые (full-text) запросы используются для поиска по тексту, но имеют принципиальные отличия

Термино-уровневые запросы

Ищут точные значения без анализа текста. Не учитывают релевантность

full_text

Анализируют текст запроса, применяют тот же анализатор, что и при индексации. match, match_phrase, multi_match

compound queries

Объединяют несколько запросов. Модифицируют поведение дочерних запросов. Управляют логикой выполнения

geographic and xy query

Географические и xy-запросы позволяют искать поля, содержащие точки и фигуры на карте или в координатной плоскости.

Объединение запросов

OpenSearch предоставляет следующие запросы, которые выполняют операции объединения и оптимизированы для масштабирования на нескольких узлах:

Запросы Span

Запросы Span являются низкоуровневыми, специфическими запросами, которые предоставляют контроль над порядком и близостью указанных терминов запроса.

Запрос Match all

Запрос match_all возвращает все документы. Этот запрос может быть полезен для тестирования больших наборов документов, если вам нужно вернуть весь набор.

Специализированные запросы

OpenSearch поддерживает следующие специализированные запросы: distance_feature, more_like_this и др.

Minimum should match (Минимальное соответствие)

Параметр minimum_should_match может использоваться для полнотекстового поиска и указывает минимальное количество терминов, с которыми документ должен соответствовать, чтобы быть возвращенным в результатах поиска.

Синтаксис регулярных выражений

Регулярное выражение (regex) — это способ определения шаблонов поиска с использованием специальных символов и операторов.