Elasticsearch优化

Elasticsearch写入优化

进行写入调优可以提高Elasticsearch的写入性能和吞吐量。以下是一些常用的写入调优手段：

批量写入：通过合并多个写入操作成为一个批量请求，减少网络请求和索引操作的开销。可以使用Elasticsearch提供的Bulk API来实现批量写入。
刷新策略调整：调整索引的刷新策略，可以控制写入操作何时刷新到磁盘。较大的刷新间隔可以提高写入吞吐量，但也会增加数据丢失的风险。
异步刷新和写入缓冲：使用Elasticsearch提供的写入缓冲机制，将写入操作缓冲在内存中，并异步地定期刷新到磁盘。这样可以减少每次写入操作对磁盘的访问次数，提高写入性能。
分片和副本设置：合理设置分片和副本数量，以平衡负载和提高写入性能。较大的分片数量和较少的副本数量可以提高写入吞吐量，但也会增加写入延迟和资源消耗。
硬件优化：选择性能更好的硬件，例如更快的磁盘、更多的内存等，可以提高写入性能和吞吐量。
索引设置优化：根据实际需求，调整索引的刷新间隔、副本同步方式等设置，以提高写入性能和数据的可靠性。
预热索引：提前创建索引并加载数据，可以减少写入时的索引创建和数据分配开销，从而提高写入性能。
网络通信优化：优化集群节点之间的网络通信，包括配置更高的网络带宽、调整通信的超时时间等，以提高写入的响应速度和可靠性。

需要根据实际情况选择合适的调优手段，并综合考虑硬件、数据量、并发情况等因素，以达到最佳的写入性能

刷新策略

ES（Elasticsearch）是一个分布式的实时搜索和分析引擎，拥有强大的搜索功能和可伸缩性。ES中的刷新（refresh）操作是将索引中的最新数据写入磁盘，以便实时搜索能够立即获取到最新的结果。

ES的刷新策略可以通过修改索引的刷新间隔（refresh_interval）和索引的刷新阈值（refresh_threshold）来进行调整。刷新间隔指的是多长时间进行一次刷新操作，刷新阈值指的是多少数据改动后进行一次刷新操作。

以下是一些常见的刷新策略调整方法：

增加刷新间隔：将刷新间隔增加可以降低刷新操作对性能的影响，但会延迟实时搜索的响应时间。可以通过修改索引的设置来增加刷新间隔，例如：

# 这将把刷新间隔设置为30秒

PUT /my-index/_settings
{
  "index" : {
    "refresh_interval" : "30s"
  }
}

调整刷新阈值：增加刷新阈值可以减少刷新操作的频率，提高写入性能，但也会延迟实时搜索的响应时间。可以通过修改索引的设置来调整刷新阈值，例如

# 这将把刷新阈值设置为30秒

PUT /my-index/_settings
{
  "index" : {
    "refresh_threshold" : "30s"
  }
}

手动触发刷新：在需要实时搜索的场景中，可以在写入数据后手动触发一次刷新操作，以便立即获取最新的结果。可以使用_refresh API来手动触发刷新操作，例如：

# 这将立即触发一次刷新操作。

POST /my-index/_refresh

最佳的刷新策略取决于具体的应用场景和需求，需要综合考虑性能、实时性和数据一致性等因素进行调整。

写入缓存

异步刷新设置：异步刷新是一种方式，可以在写入操作后暂时延迟刷新操作，以提高写入性能。ES默认是每个写入操作都进行一次同步刷新，即数据会立即写入磁盘并且立即可搜索。但是，如果想要减少刷新操作的频率以提高性能，可以将刷新间隔增加到一个较大值。可以通过修改索引的刷新间隔设置来实现，例如：

# 这将把刷新间隔设置为30秒，从而减少刷新操作的频率

PUT /my-index/_settings
{
  "index" : {
    "refresh_interval" : "30s"
  }
}

写入缓存设置： ES使用了一种写入缓存机制，来将写入操作暂时缓存在内存中，以提高写入性能。默认情况下，ES会自动管理写入缓存，并根据系统负载和资源使用情况来调整。但是，如果需要更加精细地控制写入缓存，可以修改索引的设置。以下是一些常用的写入缓存设置选项：

index.translog.sync_interval：控制刷新写入缓存的频率。可以设置一个较大的值来降低同步操作的频率。例如

# 这将把同步间隔设置为60秒

PUT /my-index/_settings
{
  "index" : {
    "translog.sync_interval" : "60s"
  }
}

index.translog.durability：控制写入缓存的持久性。可以设置为async或request，async表示尽量不进行磁盘同步，而request表示在每个写入请求后进行磁盘同步以确保持久性。例如：

# 这将设置写入缓存的持久性为异步模式

PUT /my-index/_settings
{
  "index" : {
    "translog.durability" : "async"
  }
}

Elasticsearch查询优化

进行查询调优可以提高Elasticsearch的查询性能和响应时间。以下是一些常用的查询调优手段：

使用查询DSL：使用Elasticsearch提供的查询DSL，如match、term、range等查询语句，以满足具体的查询需求。避免使用简单的通配符查询或模糊查询，可以提高查询性能。
减少返回字段：通过指定_source参数或使用_source字段排除查询结果中不需要返回的字段，减少返回数据量，从而提高查询性能。
利用缓存：根据查询模式和数据访问模式，合理配置查询缓存，缓存热门查询结果，可以提高查询响应速度。
优化查询路由：根据数据分布和查询模式，合理设置查询路由参数，将查询限定在特定的分片中进行，避免全局查询，以提高查询性能。
分页查询优化：对于大数据量的分页查询，使用Search After或Scroll API替代传统的from和size参数，可以提高查询性能和稳定性。
查询索引优化：优化索引的分词器、字段映射、文档结构等，以提高查询效率和准确性。可以选择更合适的数据类型和分词策略，避免过度分析和不必要的字段。
索引副本设置：根据查询负载和可用性需求，合理设置索引的副本数量，以提高查询的并发能力和可靠性。
JVM调优：调整Java虚拟机（JVM）的内存分配、垃圾回收策略等参数，以提高ES查询过程中的内存利用率和垃圾回收性能。
硬件优化：选择性能更好的硬件，例如更快的磁盘、更多的内存等，可以提高查询性能和吞吐量。

通配符&模糊查询

通配符查询：通配符查询使用通配符字符 * 和 ? 进行模式匹配。

通配符 * 表示零个或多个字符，例如 "elasticsearch*" 可以匹配 "elasticsearch"、"elasticsearches"、"elasticsearching" 等。
通配符 ? 表示一个字符，例如 "elasticsearch?" 可以匹配 "elasticsearchs"、"elasticsearchn"，但不匹配 "elasticsearch"。

{
  "query": {
    "wildcard": {
      "field_name": {
        "value": "elasticsearch*"
      }
    }
  }
}

模糊查询：模糊查询用于找到与给定词项相似的文档，可容忍一定的拼写错误、键入错误或语义相似。模糊查询通过 Levenshtein 距离度量计算词项之间的差异，并返回与给定词项最接近的文档。

{
  "query": {
    "fuzzy": {
      "field_name": {
        "value": "elasticsearch",
        "fuzziness": "AUTO",
        "prefix_length": 1
      }
    }
  }
}

"fuzziness" 参数设置为 "AUTO" 可根据词项长度自动调整模糊度，"prefix_length" 参数可以设置前缀匹配的字符长度。您可以根据具体需求调整这些参数。

设置查询路由

在Elasticsearch中，可以使用查询路由参数来限定查询操作仅在特定的分片上执行。这可以通过设置"_routing"字段的值来实现。

要设置查询路由参数，需要在查询DSL中指定"_routing"字段的值，该值对应于文档的路由值。文档的路由值通常是由应用程序或索引请求指定的。

以下是一个示例，演示如何在查询中设置路由参数以限定在特定分片上执行：

{
  "query": {
    "match": {
      "field_name": "search_keyword"
    }
  },
  "routing": "my_custom_routing_value"
}

在上述示例中，我们在查询DSL中设置了一个"match"查询，用于匹配指定的字段和关键词。同时，我们还指定了"routing"参数，并将其设置为"my_custom_routing_value"，这是一个自定义的路由值。

当查询请求发送到Elasticsearch时，它将根据指定的路由参数将请求路由到与该路由值匹配的分片上执行查询操作。这样可以限制查询仅在特定的分片上进行，从而提高查询性能和效率。

请注意，为了使用查询路由功能，索引中的文档需要有相应的路由值。在索引文档时，可以通过指定路由值来控制文档的分配。在查询时使用相同的路由值可以实现查询的路由限制。

需要注意的是，查询路由参数的使用应根据实际需求进行评估，并确保文档的路由值和查询路由参数的一致性以获得预期的结果。

配置查询缓存

在Elasticsearch中，可以配置查询缓存来提高查询的性能和响应速度。查询缓存可以在查询结果被缓存后，减少对磁盘的访问并提供更快的响应。

默认情况下，Elasticsearch会根据查询的结构和内容自动决定是否缓存查询结果。但您也可以通过显式地配置查询缓存来进行更精确的控制。

以下是一些配置查询缓存的方法：

全局配置：在elasticsearch.yml配置文件中设置以下参数来配置全局查询缓存：

# 启用或禁用查询缓存，默认为启用
indices.queries.cache.enabled: true

# 配置缓存中最大的查询条目数，默认为10000
indices.queries.cache.size: 1000

Index级别设置：在创建或修改索引时，可以使用以下参数来配置该索引的查询缓存：

PUT /my_index
{
  "settings": {
    "index.queries.cache.enabled": true,
    "index.queries.cache.size": 500
  }
}

"index.queries.cache.enabled" 参数用于在特定索引上启用或禁用查询缓存，默认为启用。
"index.queries.cache.size" 参数用于配置特定索引的缓存中最大的查询条目数，默认为10000。

需要注意的是，查询缓存是基于查询的哈希值进行存储和检索的，所以确保查询在内容和结构上是唯一的，以便正确使用查询缓存。

通过配置查询缓存，可以根据实际的查询模式和性能需求提高查询的效率和响应速度。根据具体的集群环境和使用情况，可以进行相应的设置来优化查询缓存

search after & scroll api

在Elasticsearch中，Search After和Scroll API都用于处理大量数据的分页查询，但它们使用不同的机制和适用于不同的使用场景。

Search After API： Search After API适用于对大数据集进行分页查询的情况。它通过使用上一页最后一条数据的排序值作为参考点，来获取下一页的结果。

使用Search After API进行分页查询的基本过程如下：

在第一页查询时，首先指定要返回的文档数量和排序规则，然后执行搜索操作。
在获取第一页结果后，从结果中提取最后一条文档的排序值，并将其用作下一页查询的search_after参数。
使用search_after参数来执行下一页的查询，以获取下一批结果。重复这个过程，直到获取了所有页的数据。

Search After API的优点是：

可以获取非常大的数据集，因为每次查询只返回一页的数据，而不需要在内存中缓存所有的结果。
性能较好，因为每次查询都是基于已知的排序值，避免了扫描整个结果集。

Scroll API： Scroll API适用于需要持续滚动遍历整个数据集的情况。它通过创建一个在集群中保持打开状态的指针，以便持续地获取结果。

使用Scroll API进行数据滚动遍历的基本过程如下：

首先，执行一次初始化的滚动查询。在此查询中，指定返回的文档数量、排序规则、过期时间等参数，并获取一个scroll_id。
使用scroll_id来获取第一页的结果，然后继续进行后续的滚动查询。
在每次滚动查询的过程中，会返回当前页的结果，并获得一个新的scroll_id，以保持滚动的状态。
重复这个过程，直到滚动查询没有更多的结果。

Scroll API的优点是：

可以处理超过10000个文档的大数据集。
可以持续滚动遍历整个数据集，无需重新执行查询。

需要注意的是，Scroll API会占用集群中的资源，并且会生成一个保持打开状态的上下文，因此在使用完毕后，应及时清理该上下文以释放资源。

根据实际需求，选择适合的API来处理大数据集的分页查询，可以提高查询性能和运行效率。

JVM内存分配

要调整Elasticsearch使用的Java虚拟机（JVM）的内存分配，可以通过以下步骤进行配置：

找到Elasticsearch安装目录中的config文件夹下的jvm.options文件。
在jvm.options文件中找到以下两行并进行调整：

- -Xms：用于指定JVM的初始堆内存大小。
- -Xmx：用于指定JVM的最大堆内存大小。

这两个选项应以相同的值进行配置。可以根据实际需求，将这两个值设置为合适的大小。一般情况下，经验法则是将初始堆内存和最大堆内存设置为相同的值，以避免堆内存大小的动态扩展。

例如，可以将-Xms和-Xmx都设置为4G，表示分配4GB的堆内存。

其他可选配置：如果需要进行更精细的调优，还可以考虑调整以下参数：

- -Xmn：用于指定年轻代的大小。
- -XX:MaxDirectMemorySize：用于指定直接内存的最大大小。

保存jvm.options文件并重新启动Elasticsearch以应用更改。

需要根据实际情况调整JVM内存分配，同时也要考虑服务器的硬件资源可用性和Elasticsearch的负载需求。注意不要将堆内存设置得过小或过大，以免导致性能问题或内存溢出。最后，也可以使用监控工具来监视JVM的内存使用情况，对性能进行优化和调整。