Elasticsearch 8月 31,2020

查询语句优化

查询语句优化的内容包括：查询范围，单次查询数量等。

根据实际业务需求去规划查询范围，查询越少的字段越快，过大的查询范围不仅会导致查询效率低，而且会使Elasticsearch集群资源耗费急剧增加，甚至可能造成集群崩溃。通过_source参数可以控制返回字段信息，尽量避免读取大字段；
单次查询数量限制是为了保证内存不会被查询内存大量占用，Elasticsearch默认的查询请求通常返回排序后的前10条记录，最多一次读取10000条记录。通过from和size参数控制读取记录范围，避免一次读取过多的记录。一次性查询大于10000条的数据，使用scroll查询，请参考3.7.6。

安全模式下查询示例：

curl -XGET --tlsv1.2 --negotiate -k -v -u : "https://ip:httpport/myindex-001/_search?pretty"  -H 'Content-Type: application/json' -d' 
{
  "from": 0,
  "size": 10,
  "_source": "age",
  "query": {
      "match": {
        "age": "56"
      }
  },
  "sort": [
    {
      "age": {
        "order": "asc"
      }
    }
  ]
}'

强制段合并（force merge）

每个shard是基于多个segment组成创建的，segment的个数的减少可以大幅的提高查询的速度，定时的进行手动索引段合并，可以提高查询速度。支持单索引和多索引批量操作。

单索引安全模式下示例：

curl -XPOST --tlsv1.2 --negotiate -k -v -u : 'https://ip:httpport/myindex-001/_forcemerge?only_expunge_deletes=false&max_num_segments=1&flush=true&pretty'

多索引安全模式下示例：

curl -XPOST --tlsv1.2 --negotiate -k -v -u : 'https://ip:httpport/myindex-001，myindex-002/_forcemerge?only_expunge_deletes=false&max_num_segments=1&flush=true&pretty'

curl -XPOST --tlsv1.2 --negotiate -k -v -u : 'https://ip:httpport/_all/_forcemerge?only_expunge_deletes=false&max_num_segments=1&flush=true&pretty'

说明：

max_num_segments：merge到多少个segments，1的意思是强行merge到1个segment；

only_expunge_deletes：只清理有deleted标记的segments，推荐值false；

flush：清理完执行一下flush，默认是true。

过滤查询（filter）

Elasticsearch的查询操作分为2种：查询（query）和过滤（filter），查询（query）默认会计算每个返回文档的得分，然后根据得分排序；而过滤（filter）只会筛选出符合的文档，并不计算得分，且可以缓存文档。

对于非全文检索的使用场景，如果不关心查询结果和查询条件的相关度，只是想查找目标数据，可以使用filter来提高查询效率。

query安全模式下查询示例：

curl -XGET --tlsv1.2 --negotiate -k -v -u : "https://ip:httpport/myindex-001/_search?pretty" -H 'Content-Type: application/json' -d'
{
  "query": {
    "match": {
      "age": "56"
    }
  }
}'

filter安全模式下查询示例：

curl -XGET --tlsv1.2 --negotiate -k -v -u : "https://ip:httpport/myindex-001/_search?pretty" -H 'Content-Type: application/json' -d' {   "query": {     "bool": {       "filter": {          "match": {           "age": "56"         }       }     }   } }'

路由（routing）

Elasticsearch写入文档时，文档会通过一个公式路由到一个索引中的一个分片上。默认公式如下：

shard_num = hash(_routing) % num_primary_shards

_routing字段的取值，默认是_id字段，可以根据业务场景设置经常查询的字段作为路由字段。例如可以考虑将用户id、地区作为路由字段，查询时可以过滤不必要的分片，加快查询速度。

安全模式下写入时指定路由：

curl -XPUT --tlsv1.2 --negotiate -k -v -u : "https://ip:httpport/my_index/my_type/1?routing=user1&refresh=true" -H 'Content-Type: application/json' -d' 
{
  "title": "This is a document"
}'

安全模式下查询时不指定路由示例：

curl -XGET --tlsv1.2 --negotiate -k -v -u : "https://ip:httpport/my_index/_search?pretty" -H 'Content-Type: application/json' -d'
{
  "query": {
    "match": {
      "title": "document"
    }
  }
}'

需要查询所有的分片，返回结果：

{
  "took" : 5,
  "timed_out" : false,
  "_shards" : {
    "total" : 5,
    "successful" : 5,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : 1,
    "max_score" : 0.2876821,
    "hits" : [
      {
        "_index" : "my_index",
        "_type" : "my_type",
        "_id" : "1",
        "_score" : 0.2876821,
        "_routing" : "user1",
        "_source" : {
          "title" : "This is a document"
        }
      }
    ]
  }
}

安全模式下查询时指定路由示例：

curl -XGET --tlsv1.2 --negotiate -k -v -u : "https://ip:httpport/my_index/_search?routing=user1&pretty" -H 'Content-Type: application/json' -d'
{
  "query": {
    "match": {
      "title": "document"
    }
  }
}'

查询时只需要查询一个分片，查询结果：

{
  "took" : 8,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : 1,
    "max_score" : 0.2876821,
    "hits" : [
      {
        "_index" : "my_index",
        "_type" : "my_type",
        "_id" : "1",
        "_score" : 0.2876821,
        "_routing" : "user1",
        "_source" : {
          "title" : "This is a document"
        }
      }
    ]
  }
}

游标查询（scroll）

Elasticsearch为了避免深分页，不允许使用分页（from&size）查询10000条以后的数据，需要使用游标（scroll）查询。

安全模式下scroll查询示例：

curl -XGET --tlsv1.2 --negotiate -k -v -u : "https://ip:httpport/myindex-001/_search?scroll=1m&pretty" -H 'Content-Type: application/json' -d'
{
  "query": {
    "match": {
      "age": "36"
    }
  },
  "size":1000
}'

说明：

使用scroll查询，应该在初始搜索请求中指定scroll参数，这个参数告诉Elasticsearch保持游标窗口期多长时间。例如：scroll=1m，表示1分钟。

结果返回：

{
  "_scroll_id" : "DnF1ZXJ5VGhlbkZldGNoMgAAAAAAAABPFlFHZzExcFdnUWJDU0d5bU==",
  "took" : 55,
  "timed_out" : false,
  "_shards" : {
    "total" : 50,
    "successful" : 50,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : 16692062,
    "max_score" : 0.0,
    "hits" : [...1000 data ]
  }
}

优化scroll：在一般场景下，scroll用来取得排序好的大量数据，但很多时候只需要返回数据，这时候可以对scroll进行优化。使用_doc去sort返回的结果不会有排序，此时执行效率最快。

安全模式下示例：

curl -XGET --tlsv1.2 --negotiate -k -v -u : "https://ip:httpport/myindex-001/_search?scroll=1m&pretty" -H 'Content-Type: application/json' -d'
{
  "query": {
    "match": {
      "age": "36"
    }
  },
  "size":1000,
  "sort": "_doc"
}'

避免使用wildcard模糊匹配查询

Elasticsearch默认支持通过*？正则表达式来做模糊匹配，数据量级别达到TB+甚至更高之后，模糊匹配查询通常会耗时比较长，甚至可能导致内存溢出，卡死乃至崩溃宕机的情况。所以数据量大的情况下，不要使用模糊匹配查询。

安全模式下模糊匹配查询示例：

curl -XGET --tlsv1.2 --negotiate -k -v -u : "https://ip:httpport/myindex-001/_search?pretty" -H 'Content-Type: application/json' -d'
{
  "query": {
    "wildcard" : {
	"name" : "*优" 
	}
  }
}'

聚合优化

大多时候对单个字段的聚合查询还是比较快的，但是当需要聚合多个字段时，就会产生大量的分组，最终结果就是占用Elasticsearch大量的内存，从而导致内存溢出的情况发生。尽量根据业务优化，减少聚合次数。

默认深度优化聚合改为广度优先聚合

添加设置：”collect_mode”: “breadth_first”。

depth_first：直接进行子聚合的计算。

breadth_first：先计算出当前聚合的结果，针对这个结果在对子聚合进行计算。

优化聚合执行方式

在每一层terms aggregation内部加一个 “execution_hint”: “map”。

添加设置：”execution_hint”: “map”。

查询结果直接放入到内存中构建map，在查询结果集小的场景下，速度极快；
但如果查询结果集合很大（百万-亿级别）的时候，传统聚合方式会比map方式快。

安全模式下聚合查询示例：

curl -XGET --tlsv1.2 --negotiate -k -v -u : "https://ip:httpport/myindex-001/_search?pretty" -H 'Content-Type: application/json' -d'
{
  "size" : 0,
  "aggregations": {
    "count_age" : {
	"terms" : {
		   "field" : "age"
		} 
	}
  }
}'

安全模式下聚合优化后查询示例：

curl -XGET --tlsv1.2 --negotiate -k -v -u : "https://ip:httpport/myindex-001/_search?pretty" -H 'Content-Type: application/json' -d'
{
  "size" : 0,
  "aggregations": {
    "count_age" : {
	"terms" : {
		   "field" : "age",
		   "execution_hint": "map",
		   "collect_mode": "breadth_first"
		} 
	}
  }
}'

配置EsClient角色(协调节点)

EsClient角色可以用于发送查询请求到其他节点，收集和合并结果，以及响应发出查询的客户端。通过配置EsClient角色可以加快查询运算速度，提升缓存命中数。

mappings优化

请确认mappings设置是否合理。

对于只需要精确查询的字段，例如时间戳，应该设置为keyword。
对需要进行全文检索的字段设置合理的分词器，不同的分词器查询效率相差较大。

超时参数

在对查询结果的精确度要求较低的场景下，如果低响应时间比搜索结果更重要，可以使用如下两个参数来提升查询性能：

terminate_after：表示每个分片收集的文档的最大数量，一旦达到该数量，查询请求提前终止。
timeout：表示每个分片上的查询超时时间，在请求超时之前，Elasticsearch将会返回已经成功从每个分片上获取的结果。安全模式下使用示例： curl -XGET –tlsv1.2 –negotiate -k -v -u : “https://ip:httpport/_search?pretty&timeout=10ms&terminate_after=10″

作者 east

Elasticsearch 8月 31,2020

ES常见性能问题与解决方案

常见性能问题与解决方案

当前性能问题很多是硬件资源限制，或者是配置使用不合理，再或者是集群部署不合理，常见问题如下：

全文检索场景下查询速度慢问题。分析：对全索引，全字段进行全文检索，发现查询速度很慢。通过集群状态分析发现，index数和shard数偏多，规划不合理，同时索引分片数设置不合理。通过查询慢日志发现，提取阶段需要合并大量的结果，导致整个查询时间慢。解决方案：关闭swap交换内存，重新规划索引的shard个数，定时的进行索引段合并减少集群segment个数。
写入数据达到一定量时，指定ID导致读IO很高问题。分析：在EsNode节点上执行iotop命令，发现大量Elasticsearch线程的磁盘读速率高。通过线程堆栈信息发现，在索引bulk命令的写入流程中，由于写入请求指定文档ID，需要先做一次全量查询，确认该index是否存在指定的文档ID，这个查询过程占用大量的磁盘读IO。解决方案：业务测进行调整，写入数据时不指定文档ID，而是将其作为一个index字段。

针对性能问题首先排查系统部署是否合理，然后查看硬件资源是否达到瓶颈，结合客户的查询特点，有针对性的利用第3节的调优参数进行调整。

查看日志信息，排查系统后台是否有报错，根据错误信息针对具体问题分析性能不达标的根本原因。

日志分类介绍：

当前Elasticsearch各个实例的日志保存在“${BigdataLogHome}/elasticsearch/${Rolename}”和“${BigdataLogHome}/audit/elasticsearch/${Rolename}”目录下。

安装日志如下：

日志文件名	分析描述
es-postinstall.log	Elasticsearch安装日志
es-start.log	Elasticsearch启动日志
es-stop.log	Elasticsearch停止日志

运行日志如下：

日志文件名	分析描述
elasticsearch_cluster.log	Elasticsearch集群日志，实例运行日志
es-process-check.log	Elasticsearch健康检查日志
es-sevice-check.log	Elasticsearch服务检查日志
elasticsearch_cluster_index_indexing_slowlog.log	Elasticsearch索引慢日志
elasticsearch_cluster_index_search_slowlog.log	Elasticsearch查询慢日志
es-gc.log	Elasticsearch实例的GC日志
elasticsearch_cluster-audit.log	记录对索引级别的操作，比如迁移shard，删除索引等

开启慢日志：默认的情况下，Elasticsearch的查询慢日志和索引慢日志是没有启用的。需要通过设置日志的级别（warn, info, debug, trace）和阀值来开启慢日志。首先设置日志级别，如下所示将日志级别设置为debug：curl -XPUT –tlsv1.2 –negotiate -k -v -u : ‘https://ip:httpport/_cluster/settings?pretty’ -H ‘Content-Type: application/json’ -d’ { “transient”: { “logger.index.indexing.slowlog”:”DEBUG”, “logger.index.search.slowlog”:”DEBUG” } }’ 设置完日志级别后需要分别设置查询慢日志和索引慢日志的对应日志级别下的阀值，可以在elasticsearch.yml文件里定义这些阀值。没有阀值设置的索引会自动继承在静态配置文件里配置的参数。同时也提供动态API的方式来设置。
1. 查询慢日志 shard级别的查询慢日志会将慢查询（查询和获取阶段）记录到elasticsearch_cluster_index_search_slowlog.log日志中。设置查询慢日志各种级别下的阀值，同时也支持多索引（索引名按逗号分隔）和全索引（用*通配符）操作。curl -XPUT –tlsv1.2 –negotiate -k -v -u : ‘https://ip:httport/myindex-001/_settings?pretty’ -H ‘Content-Type: application/json’ -d’ { “index.search.slowlog.threshold.query.warn”: “10s”, “index.search.slowlog.threshold.query.info”: “5s”, “index.search.slowlog.threshold.query.debug”: “2s”, “index.search.slowlog.threshold.query.trace”: “500ms”, “index.search.slowlog.threshold.fetch.warn”: “1s”, “index.search.slowlog.threshold.fetch.info”: “800ms”, “index.search.slowlog.threshold.fetch.debug”: “500ms”, “index.search.slowlog.threshold.fetch.trace”: “200ms”, }’ 说明： index.search.slowlog.threshold.query.*：对应日志级别下的阀值，查询阶段慢于该阀值即打印日志。 index.search.slowlog.threshold.fetch.*：对应日志级别下的阀值，提取阶段慢于该阀值即打印日志。
2. 索引慢日志设置索引慢日志各种级别下的阀值，同时也支持多索引（索引名按逗号分隔）和全索引（用*通配符）操作。curl -XPUT –tlsv1.2 –negotiate -k -v -u : ‘https://ip:httpport/myindex-001/_settings?pretty’ -H ‘Content-Type: application/json’ -d’ { “index.indexing.slowlog.threshold.index.warn”: “10s”, “index.indexing.slowlog.threshold.index.info”: “5s”, “index.indexing.slowlog.threshold.index.debug”: “2s”, “index.indexing.slowlog.threshold.index.trace”: “500ms”, “index.indexing.slowlog.source”: “1000” }’ 说明： index.indexing.slowlog.threshold.index.*：对应日志级别下的阀值，索引时间慢于该阀值即打印日志。 index.indexing.slowlog.source：Elasticsearch默认将在慢索引日志中记录_source的前1000个字符，将其设置为false或0将完全跳过记录源，设置为true将记录整个源。

作者 east

Elasticsearch 7月 26,2020

刚开始为了方便用了text类型，发现存在2个问题，比如from 2020-07-26 00:00:00 ,to 2020-07-26 10:57:00，发现查不了2020-07-26那天的数据。扩大时间范围查询，有数据范围的，当天数据也不是按时间逆序，
2020-07-26 00:00:02 可能比 2020-07-26 10:57:00还排在前面。原因是
es对于text类型的，按中间空格进行分词，即使对日期设置format
yyyy-MM-dd HH:mm:ss 也没作用。

解决方法有2种：1、使用date类型。2、使用时间戳方式。

作者 east

分类归档Elasticsearch