Elasticsearch 에 기본값으로 설정되어 있는 Analyzer

✅ 기본값으로 설정되어 있는 애널라이저(Analyzer)

Elasticsearch에서 제공하는 애널라이저로는 standard, simple, whitespace 등 다양한 종류가 있다. 그 중 기본값으로 설정되어 있는 애널라이저는 standard analyzer이다.

이전 강의에서 애널라이저는 3가지(character filter, tokenizer, token filter)로 이루어져있다고 설명했다. standard analyzer는 charcater filter는 설정되어 있지 않고, tokenizer는 standard로 설정되어 있고, token filter는 lowercase인 애널라이저를 뜻한다.

tokenizer(standard) : 공백 또는 ,, ., !, ?와 같은 문장 부호를 기준으로 문자열을 자름
token filter(lowercase) : 소문자로 변환

✅ standard analyzer 표현 방식

Elasitcsearch에서 standard analyzer를 표현하는 방식은 크게 2가지가 있다. 1번의 방식으로 표현하든 2번의 방식으로 표현하든 똑같이 작동한다. 다음 실습에서 쓰일 문법이니 봐두자.

// 방법 1
"analyzer": "standard"

// 방법 2
"char_filter": [], 
"tokenizer": "standard", 
"filter": ["lowercase"]

✅ 이전 실습 다시 되짚어보기

이전 실습에서는 아래와 같이 토큰이 나뉜다고 설명했다. 얼추 비슷하긴 하지만 틀린 부분이 존재한다.

POST /products/_create/1
{
  "name": "Apple 2025 맥북 에어 13 M4 10코어"
}

POST /products/_create/2
{
  "name": "Apple 2024 에어팟 4세대"
}

POST /products/_create/3
{
  "name": "Apple 2024 아이패드 mini A17 Pro"
}

토큰(token)	도큐먼트 id
Apple	[1, 2, 3]
2025	[1]
맥북	[1]
에어	[1]
13	[1]
M4	[1]
10코어	[1]
2024	[2, 3]
에어팟	[2]
4세대	[2]
아이패드	[3]
mini	[3]
A17	[3]
Pro	[3]

[제대로 된 토큰 형태]