match-phrase

Похож на запрос match, но соответствует целой фразе с настраиваемым слопом.

Запрос match_phrase

Используйте запрос match_phrase, чтобы находить документы, содержащие точную фразу в указанном порядке. Вы можете добавить гибкость к фразовому соответствию, указав параметр slop.

Запрос match_phrase создает фразовый запрос, который соответствует последовательности терминов.

Пример базового запроса match_phrase:

GET _search
{
  "query": {
    "match_phrase": {
      "title": "ветер дует"
    }
  }
}

Чтобы передать дополнительные параметры, вы можете использовать расширенный синтаксис:

GET _search
{
  "query": {
    "match_phrase": {
      "title": {
        "query": "ветер дует",
        "analyzer": "stop"
      }
    }
  }
}

Пример

Рассмотрим индекс с следующими документами:

PUT testindex/_doc/1
{
  "title": "The wind rises"
}

PUT testindex/_doc/2
{
  "title": "Ушедший с ветром"
}

Следующий запрос match_phrase ищет фразу “wind rises”, где слово “ветер” следует за словом “поднимается”:

GET testindex/_search
{
  "query": {
    "match_phrase": {
      "title": "wind rises"
    }
  }
}

Ответ содержит соответствующий документ:

{
  "took": 30,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 1,
      "relation": "eq"
    },
    "max_score": 0.92980814,
    "hits": [
      {
        "_index": "testindex",
        "_id": "1",
        "_score": 0.92980814,
        "_source": {
          "title": "The wind rises"
        }
      }
    ]
  }
}

Анализатор

По умолчанию, когда вы выполняете запрос по текстовому полю, текст поиска анализируется с использованием анализатора индекса, связанного с полем. Вы можете указать другой анализатор поиска в параметре analyzer. Например, следующий запрос использует английский анализатор:

GET testindex/_search
{
  "query": {
    "match_phrase": {
      "title": {
        "query": "ветра",
        "analyzer": "english"
      }
    }
  }
}

Английский анализатор удаляет стоп-слово “the” и выполняет стемминг, производя токен “ветер”. Оба документа соответствуют этому токену и возвращаются в результатах:

Slop

Если вы укажете параметр slop, запрос допускает перестановку поисковых терминов. Параметр slop указывает количество других слов, разрешенных между словами в фразе запроса. Например, в следующем запросе текст поиска переставлен по сравнению с текстом документа:

GET _search
{
  "query": {
    "match_phrase": {
      "title": {
        "query": "ветер поднимается",
        "slop": 3
      }
    }
  }
}

Запрос все равно возвращает соответствующий документ:

Пустой запрос

Для информации о возможном пустом запросе смотрите соответствующий раздел запроса match.

Параметры

Запрос принимает имя поля (<field>) в качестве параметра верхнего уровня:

GET _search
{
  "query": {
    "match_phrase": {
      "<field>": {
        "query": "текст для поиска",
        ...
      }
    }
  }
}

Параметры <field> принимают следующие значения. Все параметры, кроме query, являются необязательными.

Параметр	Тип данных	Описание
query	Строка	Строка запроса, используемая для поиска. Обязательный параметр.
analyzer	Строка	Анализатор, используемый для токенизации текста строки запроса. По умолчанию используется анализатор, заданный для поля по умолчанию на этапе индексации. Если для поля по умолчанию не указан анализатор, используется стандартный анализатор для индекса. Для получения дополнительной информации о `index.query.default_field` смотрите настройки динамического уровня индекса.
slop	0 (по умолчанию) или положительное целое число	Контролирует степень, в которой слова в запросе могут быть перепутаны и все еще считаться совпадением. Согласно документации Lucene: “Количество других слов, разрешенных между словами в фразе запроса. Например, чтобы поменять местами два слова, требуется два перемещения (первое перемещение ставит слова одно над другим), поэтому для разрешения перестановок фраз значение slop должно быть как минимум два. Значение ноль требует точного совпадения.”
zero_terms_query	Строка	В некоторых случаях анализатор удаляет все термины из строки запроса. Например, анализатор стоп-слов удаляет все термины из строки “an”, кроме “but”. В таких случаях `zero_terms_query` указывает, следует ли не находить ни одного документа (none) или находить все документы (all). Допустимые значения: none и all. По умолчанию используется none.