【小狐狸的源码】【混合选股公式源码】【达信选股源码】paging3源码分析-皮皮网

【小狐狸的源码】【混合选股公式源码】【达信选股源码】paging3源码分析

来源：如皋源码建站时间：2024-12-28 18:19:00

1.Scroll源码解析

paging3源码分析

Scroll源码解析

1. Scroll查询在指定_doc排序时相较于不指定排序或指定某个字段排序能明显更快，源码这是分析由于Scroll查询的机制及底层实现所致。

首先查看Elasticsearch的源码Collector，其主要功能是分析收集文档并按照特定规则排序。其中，源码TopDocsCollector类在收集文档后会返回一个有序的分析小狐狸的源码TopDocs对象，该对象是源码搜索结果的返回值。TopDocsCollector有三个子类：SimpleFieldCollector、分析PagingFieldCollector、源码SimpleTopScoreDocCollector 和PagingTopScoreDocCollector。分析这些子类根据排序规则（如字段排序、源码简单排序等）进行文档排序。分析

2. 对于TopScoreDocCollector，源码其排序规则是分析先执行打分，分数相同的源码文档按文档号排序。TopFieldCollector则是先按照指定字段排序，值相同的文档再按文档号排序。

3. TopScoreDocsCollector的两个子类（SimpleTopScoreDocCollector和PagingTopScoreDocCollector）在功能上区别在于PagingTopScoreDocCollector针对翻页请求，代码上增加了对after的判断。对于使用TopScoreDocsCollector无论是否为翻页请求，每次请求都会扫描全部命中文档并计算分值。混合选股公式源码使用SimpleTopScoreDocCollector还是PagingTopScoreDocCollector取决于after是否为null。

4. 对于scroll请求，after参数等于scrollContext.lastEmittedDoc，即上次翻页最大的ScoreDoc。TopFieldCollector同样有两个子类（SimpleFieldCollector和PagingFieldCollector），其判断逻辑与TopScoreDocsCollector类似，也是根据searchContext.sort()是否为null来决定使用哪类Collector。

5. 在lucene6.4.1版本中，无论是SimpleFieldCollector和PagingFieldCollector都无法提前终止收集过程。然而，达信选股源码从更高版本的lucene开始，具备了提前结束收集的功能，判断依据是search sort=index sort一致时，通过抛出CollectionTerminatedException异常提前结束收集。Elasticsearch从6.x版本开始也支持了自定义写入顺序，可以不是_doc而是某个字段值。

6. 通过Elasticsearch的代码分析，我们确认scroll请求在指定_doc排序并从第二页开始时，只会收集指定数量的doc，性能表现更优。迷你世界源码模型代码对于scroll请求，包装了一层MinDocQuery，用于过滤掉已经翻页过的数据，大大减少文档命中数，避免收集无用的doc，这对于深度翻页性能提升明显。

7. 对于scroll请求，由于不支持向前翻页，每次查询对于已查过的数据无需收集。Elasticsearch通过MinDocQuery实现跳跃功能，主力布控选股源码将doc跳到segmentMinDoc（lastEmittedDoc+1），在合并倒排表之后，实际上就不会再命中上一页的内容。触发提前终止后，后续倒排表合并也不再必要，性能提升显著。

8. Scroll与search_after查询实际上走的是相同的逻辑，都是通过一个after变量进行翻页。scroll的after参数为scrollContext.lastEmittedDoc（ScoreDoc），search_after的after参数为包含sort字段信息的FieldDoc，都是ScoreDoc。最终都会收集全部命中文档才能得到排序结果，但scroll对于_doc排序做了优化，性能表现更佳。

9. 对于search_after查询，即使指定_doc排序，仍然需要收集全部命中文档，因为search_after是动态的，MinDocQuery跳跃功能不适用。然而，search_after在lucene后续版本中支持了提前终止功能，当查询时指定sort为index sort，可以触发提前终止，不再收集全部命中文档。

. Scroll请求保存的上下文信息主要是maxScore和lastEmittedDoc用于翻页，但实际保存的不仅仅是ScrollContext，而是SearchContext，其中包含了更多关键信息，如searcher和IndexReader，后者对于后续索引更新是感知不到的，除非重新打开reader或使用DirectoryReader.openIfChanged(oldreader)。这是Scroll查询无法感知索引更新的原因。

. 经过测试，即使在scroll过程中触发了merge，被merge的segment文件也不会立即被删除，新的segment文件也不会被发现。这表明Scroll查询无法感知数据更新，其本质是快照了LeafReaderContext，并非检索命中的结果。

总结而言，Scroll查询在指定_doc排序时，通过优化收集过程和使用MinDocQuery实现跳跃功能，能显著提升性能，尤其是在翻页操作中。同时，Scroll请求的机制及底层实现使得其在查询处理上与search_after查询存在显著差异，但在Elasticsearch6.x版本中引入了索引预排序和提前终止功能，进一步优化了查询性能。

【小狐狸的源码】【混合选股公式源码】【达信选股源码】paging3源码分析

热点文章

精彩图文