使用統計彙總功能可以實現求最小值、求最大值、求和、求平均值、統計行數、去重統計行數、百分位統計、按欄位值分組、按範圍分組、按地理位置分組、按過濾條件分組、長條圖統計、擷取統計彙總分組內的行、巢狀查詢等;同時多個統計彙總功能可以組合使用,滿足複雜的查詢需求。
流程
統計彙總的完整執行流程如下圖所示。
統計彙總是在服務端的“查詢”結束後執行,服務端會將“查詢”階段命中的所有文檔根據查詢請求進行統計彙總,因此統計彙總請求相比沒有統計彙總的請求會複雜。
背景資訊
功能 | 說明 |
---|---|
最小值 | 返回一個欄位中的最小值,類似於SQL中的min。 |
最大值 | 返回一個欄位中的最大值,類似於SQL中的max。 |
和 | 返回數值欄位的總數,類似於SQL中的sum。 |
平均值 | 返回數值欄位的平均值,類似於SQL中的avg。 |
統計行數 | 返回指定欄位值的數量或者多元索引資料總行數,類似於SQL中的count。 |
去重統計行數 | 返回指定欄位不同值的數量,類似於SQL中的count(distinct)。 |
百分位統計 | 百分位統計常用來統計一組資料的百分位分布情況,例如在日常系統營運中統計每次請求訪問的耗時情況時,需要關注系統請求耗時的P25、P50、P90、P99值等分布情況。 |
欄位值分組 | 根據一個欄位的值對查詢結果進行分組,相同的欄位值放到同一分組內,返回每個分組的值和該值對應的個數。 说明 當分組較大時,按欄位值分組可能會存在誤差。 |
範圍分組 | 根據一個欄位的範圍對查詢結果進行分組,欄位值在某範圍內放到同一分組內,返回每個範圍中相應的item個數。 |
地理位置分組 | 根據距離某一個中心點的範圍對查詢結果進行分組,距離差值在某範圍內放到同一分組內,返回每個範圍中相應的item個數。 |
過濾條件分組 | 按照過濾條件對查詢結果進行分組,擷取每個過濾條件匹配到的數量,返回結果的順序和添加過濾條件的順序一致。 |
長條圖統計 | 按照指定資料間隔對查詢結果進行分組,欄位值在相同範圍內放到同一分組內,返回每個分組的值和該值對應的個數。 |
擷取統計彙總分組中的行 | 對查詢結果進行分組後,擷取每個分組內的一些行資料,可實現和MySQL中ANY_VALUE(field)類似的功能。 |
嵌套 | 分組類型的統計彙總功能支援嵌套,其內部可以添加子統計彙總。 |
多個統計彙總 | 多個統計彙總功能可以組合使用。 说明 當多個統計彙總的複雜度較高時可能會影響響應速度。 |
前提條件
最小值
返回一個欄位中的最小值,類似於SQL中的min。
- 參數
參數 說明 aggregationName 自訂的統計彙總名稱,用於區分不同的統計彙總,可根據此名稱擷取本次統計彙總結果。 fieldName 用於統計彙總的欄位,僅支援Long和Double類型。 missing 當某行資料中的欄位為空白時,欄位值的預設值。
- 如果未設定missing值,則在統計彙總時會忽略該行。
- 如果設定了missing值,則使用missing值作為欄位值的預設值參與統計彙總。
- 樣本
/** * 商品庫中有每一種商品的價格,求產地為浙江省的商品中,價格最低的商品價格是多少。 * 等效的SQL語句是SELECT min(column_price) FROM product where place_of_production="浙江省"。 */ public void min(SyncClient client) { //使用builder模式構建查詢語句。 { SearchRequest searchRequest = SearchRequest.newBuilder() .tableName("tableName") .indexName("indexName") .searchQuery( SearchQuery.newBuilder() .query(QueryBuilders.term("place_of_production", "浙江省")) .limit(0) //如果只關心統計彙總結果,不關心具體資料,您可以將limit設定為0來提高效能。 .addAggregation(AggregationBuilders.min("min_agg_1", "column_price").missing(100)) .build()) .build(); //執行查詢。 SearchResponse resp = client.search(searchRequest); //擷取統計彙總結果。 System.out.println(resp.getAggregationResults().getAsMinAggregationResult("min_agg_1").getValue()); } //使用非builder模式構建查詢語句。 { SearchRequest searchRequest = new SearchRequest(); searchRequest.setTableName("tableName"); searchRequest.setIndexName("indexName"); SearchQuery searchQuery = new SearchQuery(); TermQuery query = new TermQuery(); query.setTerm(ColumnValue.fromString("浙江省")); query.setFieldName("place_of_production"); //下述注釋的builder寫法等效於上述TermQuery構建寫法。 // Query query2 = QueryBuilders.term("place_of_production", "浙江省").build(); searchQuery.setQuery(query); searchQuery.setLimit(0); MinAggregation aggregation = new MinAggregation(); aggregation.setAggName("min_agg_1"); aggregation.setFieldName("column_price"); aggregation.setMissing(ColumnValue.fromLong(100)); //下述注釋的builder寫法等效於上述aggregation構建寫法。 // MinAggregation aggregation2 = AggregationBuilders.min("min_agg_1", "column_price").missing(100).build(); List<Aggregation> aggregationList = new ArrayList<Aggregation>(); aggregationList.add(aggregation); searchQuery.setAggregationList(aggregationList); //執行查詢。 SearchResponse resp = client.search(searchRequest); //擷取統計彙總結果。 System.out.println(resp.getAggregationResults().getAsMinAggregationResult("min_agg_1").getValue()); } }
最大值
返回一個欄位中的最大值,類似於SQL中的max。
- 參數
參數 說明 aggregationName 自訂的統計彙總名稱,用於區分不同的統計彙總,可根據此名稱擷取本次統計彙總結果。 fieldName 用於統計彙總的欄位,僅支援Long和Double類型。 missing 當某行資料中的欄位為空白時,欄位值的預設值。
- 如果未設定missing值,則在統計彙總時會忽略該行。
- 如果設定了missing值,則使用missing值作為欄位值的預設值參與統計彙總。
- 樣本
/** * 商品庫中有每一種商品的價格,求產地為浙江省的商品中,價格最高的商品價格是多少。 * 等效的SQL語句是SELECT max(column_price) FROM product where place_of_production="浙江省"。 */ public void max(SyncClient client) { //使用builder模式構建查詢語句。 { SearchRequest searchRequest = SearchRequest.newBuilder() .tableName("tableName") .indexName("indexName") .searchQuery( SearchQuery.newBuilder() .query(QueryBuilders.term("place_of_production", "浙江省")) .limit(0) //如果只關心統計彙總結果,不關心具體資料,您可以將limit設定為0來提高效能。 .addAggregation(AggregationBuilders.max("max_agg_1", "column_price").missing(0)) .build()) .build(); //執行查詢。 SearchResponse resp = client.search(searchRequest); //擷取統計彙總結果。 System.out.println(resp.getAggregationResults().getAsMaxAggregationResult("max_agg_1").getValue()); } //使用非builder模式構建查詢語句。 { SearchRequest searchRequest = new SearchRequest(); searchRequest.setTableName("tableName"); searchRequest.setIndexName("indexName"); SearchQuery searchQuery = new SearchQuery(); TermQuery query = new TermQuery(); query.setTerm(ColumnValue.fromString("浙江省")); query.setFieldName("place_of_production"); //下述注釋的builder寫法等效於上述TermQuery構建寫法。 // Query query2 = QueryBuilders.term("place_of_production", "浙江省").build(); searchQuery.setQuery(query); searchQuery.setLimit(0); MaxAggregation aggregation = new MaxAggregation(); aggregation.setAggName("max_agg_1"); aggregation.setFieldName("column_price"); aggregation.setMissing(ColumnValue.fromLong(100)); //下述注釋的builder寫法等效於上述aggregation構建寫法。 // MaxAggregation aggregation2 = AggregationBuilders.max("max_agg_1", "column_price").missing(100).build(); List<Aggregation> aggregationList = new ArrayList<Aggregation>(); aggregationList.add(aggregation); searchQuery.setAggregationList(aggregationList); //執行查詢。 SearchResponse resp = client.search(searchRequest); //擷取統計彙總結果。 System.out.println(resp.getAggregationResults().getAsMaxAggregationResult("max_agg_1").getValue()); } }
和
返回數值欄位的總數,類似於SQL中的sum。
- 參數
參數 說明 aggregationName 自訂的統計彙總名稱,用於區分不同的統計彙總,可根據此名稱擷取本次統計彙總結果。 fieldName 用於統計彙總的欄位,僅支援Long和Double類型。 missing 當某行資料中的欄位為空白時,欄位值的預設值。
- 如果未設定missing值,則在統計彙總時會忽略該行。
- 如果設定了missing值,則使用missing值作為欄位值的預設值參與統計彙總。
- 樣本
/** * 商品庫中有每一種商品的價格,求產地為浙江省的商品中,價格最高的商品價格是多少。 * 等效的SQL語句是SELECT sum(column_price) FROM product where place_of_production="浙江省"。 */ public void sum(SyncClient client) { //使用builder模式構建查詢語句。 { SearchRequest searchRequest = SearchRequest.newBuilder() .tableName("tableName") .indexName("indexName") .searchQuery( SearchQuery.newBuilder() .query(QueryBuilders.term("place_of_production", "浙江省")) .limit(0) //如果只關心統計彙總結果,不關心具體資料,您可以將limit設定為0來提高效能。 .addAggregation(AggregationBuilders.sum("sum_agg_1", "column_number").missing(10)) .build()) .build(); //執行查詢。 SearchResponse resp = client.search(searchRequest); //擷取統計彙總結果。 System.out.println(resp.getAggregationResults().getAsSumAggregationResult("sum_agg_1").getValue()); } // 使用非builder模式構建查詢語句。 { SearchRequest searchRequest = new SearchRequest(); searchRequest.setTableName("tableName"); searchRequest.setIndexName("indexName"); SearchQuery searchQuery = new SearchQuery(); TermQuery query = new TermQuery(); query.setTerm(ColumnValue.fromString("浙江省")); query.setFieldName("place_of_production"); //下述注釋的builder寫法等效於上述TermQuery構建寫法。 // Query query2 = QueryBuilders.term("place_of_production", "浙江省").build(); searchQuery.setQuery(query); searchQuery.setLimit(0); SumAggregation aggregation = new SumAggregation(); aggregation.setAggName("sum_agg_1"); aggregation.setFieldName("column_number"); aggregation.setMissing(ColumnValue.fromLong(100)); //下述注釋的builder寫法等效於上述aggregation構建寫法。 // SumAggregation aggregation2 = AggregationBuilders.sum("sum_agg_1", "column_number").missing(10).build(); List<Aggregation> aggregationList = new ArrayList<Aggregation>(); aggregationList.add(aggregation); searchQuery.setAggregationList(aggregationList); //執行查詢。 SearchResponse resp = client.search(searchRequest); //擷取統計彙總結果。 System.out.println(resp.getAggregationResults().getAsSumAggregationResult("sum_agg_1").getValue()); } }
平均值
返回數值欄位的平均值,類似於SQL中的avg。
- 參數
參數 說明 aggregationName 自訂的統計彙總名稱,用於區分不同的統計彙總,可根據此名稱擷取本次統計彙總結果。 fieldName 用於統計彙總的欄位,僅支援Long和Double類型。 missing 當某行資料中的欄位為空白時,欄位值的預設值。
- 如果未設定missing值,則在統計彙總時會忽略該行。
- 如果設定了missing值,則使用missing值作為欄位值的預設值參與統計彙總。
- 樣本
/** * 商品庫中有每一種商品的售出數量,求產地為浙江省的商品中,平均價格是多少。 * 等效的SQL語句是SELECT avg(column_price) FROM product where place_of_production="浙江省"。 */ public void avg(SyncClient client) { //使用builder模式構建查詢語句。 { SearchRequest searchRequest = SearchRequest.newBuilder() .tableName("tableName") .indexName("indexName") .searchQuery( SearchQuery.newBuilder() .query(QueryBuilders.term("place_of_production", "浙江省")) .limit(0) //如果只關心統計彙總結果,不關心具體資料,您可以將limit設定為0來提高效能。 .addAggregation(AggregationBuilders.avg("avg_agg_1", "column_price")) .build()) .build(); //執行查詢。 SearchResponse resp = client.search(searchRequest); //擷取統計彙總結果。 System.out.println(resp.getAggregationResults().getAsSumAggregationResult("avg_agg_1").getValue()); } //使用非builder模式構建查詢語句。 { SearchRequest searchRequest = new SearchRequest(); searchRequest.setTableName("tableName"); searchRequest.setIndexName("indexName"); SearchQuery searchQuery = new SearchQuery(); TermQuery query = new TermQuery(); query.setTerm(ColumnValue.fromString("浙江省")); query.setFieldName("place_of_production"); //下述注釋的builder寫法等效於上述TermQuery構建寫法。 // Query query2 = QueryBuilders.term("place_of_production", "浙江省").build(); searchQuery.setQuery(query); searchQuery.setLimit(0); AvgAggregation aggregation = new AvgAggregation(); aggregation.setAggName("avg_agg_1"); aggregation.setFieldName("column_price"); //下述注釋的builder寫法等效於上述aggregation構建寫法。 // AvgAggregation aggregation2 = AggregationBuilders.avg("avg_agg_1", "column_price").build(); List<Aggregation> aggregationList = new ArrayList<Aggregation>(); aggregationList.add(aggregation); searchQuery.setAggregationList(aggregationList); //執行查詢。 SearchResponse resp = client.search(searchRequest); //擷取統計彙總結果。 System.out.println(resp.getAggregationResults().getAsAvgAggregationResult("avg_agg_1").getValue()); } }
統計行數
- 使用統計彙總的count功能,在請求中設定count(*)。
- 使用query功能的匹配行數,在query中設定setGetTotalCount(true);如果需要統計多元索引資料總行數,則使用MatchAllQuery。
如果需要擷取多元索引資料某列出現的次數,則使用count(列名),可應用於稀疏列的情境。
- 參數
參數 說明 aggregationName 自訂的統計彙總名稱,用於區分不同的統計彙總,可根據此名稱擷取本次統計彙總結果。 fieldName 用於統計彙總的欄位,僅支援Long、Double、Boolean、Keyword和Geo_point類型。 - 樣本
/** * 商家庫中有每一種商家的懲罰記錄,求浙江省的商家中,有懲罰記錄的一共有多少個商家。如果商家沒有懲罰記錄,則商家資訊中不存在該欄位。 * 等效的SQL語句是SELECT count(column_history) FROM product where place_of_production="浙江省"。 */ public void count(SyncClient client) { //使用builder模式構建查詢語句。 { SearchRequest searchRequest = SearchRequest.newBuilder() .tableName("tableName") .indexName("indexName") .searchQuery( SearchQuery.newBuilder() .query(QueryBuilders.term("place_of_production", "浙江省")) .limit(0) //如果只關心統計彙總結果,不關心具體資料,您可以將limit設定為0來提高效能。 .addAggregation(AggregationBuilders.count("count_agg_1", "column_history")) .build()) .build(); //執行查詢。 SearchResponse resp = client.search(searchRequest); //擷取統計彙總結果。 System.out.println(resp.getAggregationResults().getAsSumAggregationResult("count_agg_1").getValue()); } //使用非builder模式構建查詢語句。 { SearchRequest searchRequest = new SearchRequest(); searchRequest.setTableName("tableName"); searchRequest.setIndexName("indexName"); SearchQuery searchQuery = new SearchQuery(); TermQuery query = new TermQuery(); query.setTerm(ColumnValue.fromString("浙江省")); query.setFieldName("place_of_production"); //下述注釋的builder寫法等效於上述TermQuery構建寫法。 // Query query2 = QueryBuilders.term("place_of_production", "浙江省").build(); searchQuery.setQuery(query); searchQuery.setLimit(0); CountAggregation aggregation = new CountAggregation(); aggregation.setAggName("count_agg_1"); aggregation.setFieldName("column_history"); //下述注釋的builder寫法等效於上述aggregation構建寫法。 // CountAggregation aggregation2 = AggregationBuilders.count("count_agg_1", "column_history").build(); List<Aggregation> aggregationList = new ArrayList<Aggregation>(); aggregationList.add(aggregation); searchQuery.setAggregationList(aggregationList); //執行查詢。 SearchResponse resp = client.search(searchRequest); //擷取統計彙總結果。 System.out.println(resp.getAggregationResults().getAsCountAggregationResult("count_agg_1").getValue()); } }
去重統計行數
- 當去重統計行數小於1萬時,計算結果接近精確值。
- 當去重統計行數達到1億時,計算結果的誤差為2%左右。
- 參數
參數 說明 aggregationName 自訂的統計彙總名稱,用於區分不同的統計彙總,可根據此名稱擷取本次統計彙總結果。 fieldName 用於統計彙總的欄位,僅支援Long、Double、Boolean、Keyword和Geo_point類型。 missing 當某行資料中的欄位為空白時,欄位值的預設值。 - 如果未設定missing值,則在統計彙總時會忽略該行。
- 如果設定了missing值,則使用missing值作為欄位值的預設值參與統計彙總。
- 樣本
/** * 求所有的商品,產地一共來自多少個省份。 * 等效的SQL語句是SELECT count(distinct column_place) FROM product。 */ public void distinctCount(SyncClient client) { //使用builder模式構建查詢語句。 { SearchRequest searchRequest = SearchRequest.newBuilder() .tableName("tableName") .indexName("indexName") .searchQuery( SearchQuery.newBuilder() .query(QueryBuilders.matchAll()) .limit(0) //如果只關心統計彙總結果,不關心具體資料,您可以將limit設定為0來提高效能。 .addAggregation(AggregationBuilders.distinctCount("dis_count_agg_1", "column_place")) .build()) .build(); //執行查詢。 SearchResponse resp = client.search(searchRequest); //擷取統計彙總結果。 System.out.println(resp.getAggregationResults().getAsSumAggregationResult("dis_count_agg_1").getValue()); } //使用非builder模式構建查詢語句。 { SearchRequest searchRequest = new SearchRequest(); searchRequest.setTableName("tableName"); searchRequest.setIndexName("indexName"); SearchQuery searchQuery = new SearchQuery(); MatchAllQuery query = new MatchAllQuery(); //下述注釋的builder寫法等效於上述TermQuery構建寫法。 // Query query2 = QueryBuilders.matchAll().build(); searchQuery.setQuery(query); searchQuery.setLimit(0); DistinctCountAggregation aggregation = new DistinctCountAggregation(); aggregation.setAggName("dis_count_agg_1"); aggregation.setFieldName("column_place"); //下述注釋的builder寫法等效於上述aggregation構建寫法。 // DistinctCountAggregation aggregation2 = AggregationBuilders.distinctCount("dis_count_agg_1", "column_place").build(); List<Aggregation> aggregationList = new ArrayList<Aggregation>(); aggregationList.add(aggregation); searchQuery.setAggregationList(aggregationList); //執行查詢。 SearchResponse resp = client.search(searchRequest); //擷取統計彙總結果。 System.out.println(resp.getAggregationResults().getAsDistinctCountAggregationResult("dis_count_agg_1").getValue()); } }
百分位統計
百分位統計常用來統計一組資料的百分位分布情況,例如在日常系統營運中統計每次請求訪問的耗時情況時,需要關注系統請求耗時的P25、P50、P90、P99值等分布情況。
- 參數
參數 說明 aggregationName 自訂的統計彙總名稱,用於區分不同的統計彙總,可根據此名稱擷取本次統計彙總結果。 fieldName 用於統計彙總的欄位,僅支援Long和Double類型。 percentiles 百分位分布例如50、90、99,可根據需要設定一個或者多個百分位。 missing 當某行資料中的欄位為空白時,欄位值的預設值。 - 如果未設定missing值,則在統計彙總時會忽略該行。
- 如果設定了missing值,則使用missing值作為欄位值的預設值參與統計彙總。
- 樣本
/** * 分析系統請求耗時百分位元分布情況。 */ public void percentilesAgg(SyncClient client) { //使用builder模式構建查詢語句。 { SearchRequest searchRequest = SearchRequest.newBuilder() .tableName("tableName") .indexName("indexName") .searchQuery( SearchQuery.newBuilder() .query(QueryBuilders.matchAll()) .limit(0) //如果只關心統計彙總結果,不關心具體資料,您可以將limit設定為0來提高效能。 .addAggregation(AggregationBuilders.percentiles("percentilesAgg", "latency") .percentiles(Arrays.asList(25.0d, 50.0d, 99.0d)) .missing(1.0)) .build()) .build(); //執行查詢。 SearchResponse resp = client.search(searchRequest); //擷取結果。 PercentilesAggregationResult percentilesAggregationResult = resp.getAggregationResults().getAsPercentilesAggregationResult("percentilesAgg"); for (PercentilesAggregationItem item : percentilesAggregationResult.getPercentilesAggregationItems()) { System.out.println("key:" + item.getKey() + " value:" + item.getValue().asDouble()); } } //使用非builder模式構建查詢語句。 { SearchRequest searchRequest = new SearchRequest(); searchRequest.setTableName("tableName"); searchRequest.setIndexName("indexName"); SearchQuery searchQuery = new SearchQuery(); MatchAllQuery query = new MatchAllQuery(); //下述注釋的builder寫法等效於上述TermQuery構建寫法。 // Query query2 = QueryBuilders.matchAll().build(); searchQuery.setQuery(query); searchQuery.setLimit(0); PercentilesAggregation aggregation = new PercentilesAggregation(); aggregation.setAggName("percentilesAgg"); aggregation.setFieldName("latency"); aggregation.setPercentiles(Arrays.asList(25.0d, 50.0d, 99.0d)); //下述注釋的builder寫法等效於上述aggregation構建寫法。 // AggregationBuilders.percentiles("percentilesAgg", "latency").percentiles(Arrays.asList(25.0d, 50.0d, 99.0d)).missing(1.0).build(); List<Aggregation> aggregationList = new ArrayList<Aggregation>(); aggregationList.add(aggregation); searchQuery.setAggregationList(aggregationList); //執行查詢。 SearchResponse resp = client.search(searchRequest); //擷取結果。 PercentilesAggregationResult percentilesAggregationResult = resp.getAggregationResults().getAsPercentilesAggregationResult("percentilesAgg"); for (PercentilesAggregationItem item : percentilesAggregationResult.getPercentilesAggregationItems()) { System.out.println("key:" + item.getKey() + " value:" + item.getValue().asDouble()); } } }
欄位值分組
- 參數
參數 說明 groupByName 自訂的統計彙總名稱,用於區分不同的統計彙總,可根據此名稱擷取本次統計彙總結果。 fieldName 用於統計彙總的欄位,僅支援Long、Double、Boolean和Keyword類型。 groupBySorter 分組中的item定序,預設按照分組中item的數量降序排序,多個排序則按照添加的順序進行排列。支援的參數如下。 - 按照值的字典序升序排列
- 按照值的字典序降序排列
- 按照行數升序排列
- 按照行數降序排列
- 按照子統計彙總結果中值升序排列
- 按照子統計彙總結果中值降序排列
size 返回的分組數量,預設值為10。最大值為2000。當分組數量超過2000時,只會返回前2000個分組。 subAggregation和subGroupBy 子統計彙總,子統計彙總會根據分組內容再進行一次統計彙總分析。 - 情境
統計每個類別的商品數量,且統計每個類別價格的最大值和最小值。
- 方法
最外層的統計彙總是根據類別進行分組,再添加兩個子統計彙總求價格的最大值和最小值。
- 結果樣本
- 水果:5個(其中價格的最大值為15,最小值為3)
- 洗漱用品:10個(其中價格的最大值為98,最小值為1)
- 電子裝置:3個(其中價格的最大值為8699,最小值為2300)
- 其它:15個(其中價格的最大值為1000,最小值為80)
- 樣本1
/** * 所有商品中每一個類別各有多少個,且統計每一個類別的價格最大值和最小值。 * 返回結果舉例:"水果:5個(其中價格的最大值為15,最小值為3),洗漱用品:10個(其中價格的最大值為98,最小值為1),電子裝置:3個(其中價格的最大值為8699,最小值為2300), * 其它:15個(其中價格的最大值為1000,最小值為80)"。 */ public void groupByField(SyncClient client) { //使用builder模式構建查詢語句。 { SearchRequest searchRequest = SearchRequest.newBuilder() .tableName("tableName") .indexName("indexName") .searchQuery( SearchQuery.newBuilder() .query(QueryBuilders.matchAll()) .limit(0) //如果只關心統計彙總結果,不關心具體資料,您可以將limit設定為0來提高效能。 .addGroupBy(GroupByBuilders .groupByField("name1", "column_type") .addSubAggregation(AggregationBuilders.min("subName1", "column_price")) .addSubAggregation(AggregationBuilders.max("subName2", "column_price")) ) .build()) .build(); //執行查詢。 SearchResponse resp = client.search(searchRequest); //擷取統計彙總結果。 for (GroupByFieldResultItem item : resp.getGroupByResults().getAsGroupByFieldResult("name1").getGroupByFieldResultItems()) { //列印值。 System.out.println(item.getKey()); //列印個數。 System.out.println(item.getRowCount()); //列印價格的最小值。 System.out.println(item.getSubAggregationResults().getAsMinAggregationResult("subName1").getValue()); //列印價格的最大值。 System.out.println(item.getSubAggregationResults().getAsMaxAggregationResult("subName2").getValue()); } } //使用非builder模式構建查詢語句。 { SearchRequest searchRequest = new SearchRequest(); searchRequest.setTableName("tableName"); searchRequest.setIndexName("indexName"); SearchQuery searchQuery = new SearchQuery(); MatchAllQuery query = new MatchAllQuery(); //下述注釋的builder寫法等效於上述TermQuery構建寫法。 // Query query2 = QueryBuilders.matchAll().build(); searchQuery.setQuery(query); searchQuery.setLimit(0); GroupByField groupByField = new GroupByField(); groupByField.setGroupByName("name1"); groupByField.setFieldName("column_type"); //設定子統計彙總。 MinAggregation minAggregation = AggregationBuilders.min("subName1", "column_price").build(); MaxAggregation maxAggregation = AggregationBuilders.max("subName2", "column_price").build(); groupByField.setSubAggregations(Arrays.asList(minAggregation, maxAggregation)); //下述注釋的builder寫法等效於上述aggregation構建寫法。 // GroupByBuilders.groupByField("name1", "column_type") // .addSubAggregation(AggregationBuilders.min("subName1", "column_price")) // .addSubAggregation(AggregationBuilders.max("subName2", "column_price").build()); List<GroupBy> groupByList = new ArrayList<GroupBy>(); groupByList.add(groupByField); searchQuery.setGroupByList(groupByList); searchRequest.setSearchQuery(searchQuery); //執行查詢。 SearchResponse resp = client.search(searchRequest); //擷取統計彙總結果。 for (GroupByFieldResultItem item : resp.getGroupByResults().getAsGroupByFieldResult("name1").getGroupByFieldResultItems()) { //列印值。 System.out.println(item.getKey()); //列印個數。 System.out.println(item.getRowCount()); //列印價格的最小值。 System.out.println(item.getSubAggregationResults().getAsMinAggregationResult("subName1").getValue()); //列印價格的最大值。 System.out.println(item.getSubAggregationResults().getAsMaxAggregationResult("subName2").getValue()); } } }
- 樣本2
/** * 按照多欄位分組的樣本。 * 多元索引目前不能原生支援SQL中的groupBy多欄位,但是可以通過嵌套使用兩個groupBy完成相似功能。 * 等效的SQL語句是select a,d, sum(b),sum(c) from user group by a,d。 */ public void GroupByMultiField() { SearchRequest searchRequest = SearchRequest.newBuilder() .tableName("tableName") .indexName("indexName") .returnAllColumns(true) //設定為false時,指定addColumnsToGet,效能會高。 //.addColumnsToGet("col_1","col_2") .searchQuery(SearchQuery.newBuilder() .query(QueryBuilders.matchAll()) //此處相當於SQL中的where條件,可以通過QueryBuilders.bool()巢狀查詢實現複雜的查詢。 .addGroupBy( GroupByBuilders .groupByField("任意唯一名字標識_1", "field_a") .size(20) .addSubGroupBy( GroupByBuilders .groupByField("任意唯一名字標識_2", "field_d") .size(20) .addSubAggregation(AggregationBuilders.sum("任意唯一名字標識_3", "field_b")) .addSubAggregation(AggregationBuilders.sum("任意唯一名字標識_4", "field_c")) ) ) .build()) .build(); SearchResponse response = client.search(searchRequest); //查詢合格行。 List<Row> rows = response.getRows(); //擷取統計彙總結果。 GroupByFieldResult groupByFieldResult1 = response.getGroupByResults().getAsGroupByFieldResult("任意唯一名字標識_1"); for (GroupByFieldResultItem resultItem : groupByFieldResult1.getGroupByFieldResultItems()) { System.out.println("field_a key:" + resultItem.getKey() + " Count:" + resultItem.getRowCount()); //擷取子統計彙總結果。 GroupByFieldResult subGroupByResult = resultItem.getSubGroupByResults().getAsGroupByFieldResult("任意唯一名字標識_2"); for (GroupByFieldResultItem item : subGroupByResult.getGroupByFieldResultItems()) { System.out.println("field_a " + resultItem.getKey() + " field_d key:" + item.getKey() + " Count:" + item.getRowCount()); double sumOf_field_b = item.getSubAggregationResults().getAsSumAggregationResult("任意唯一名字標識_3").getValue(); double sumOf_field_c = item.getSubAggregationResults().getAsSumAggregationResult("任意唯一名字標識_4").getValue(); System.out.println("sumOf_field_b:" + sumOf_field_b); System.out.println("sumOf_field_c:" + sumOf_field_c); } } }
- 樣本3
/** * 使用統計彙總排序的樣本。 * 使用方法:按順序添加GroupBySorter即可,添加多個GroupBySorter時排序結果按照添加順序生效。GroupBySorter支援升序和降序兩種方式。 * 預設排序是按照行數降序排列即GroupBySorter.rowCountSortInDesc()。 */ public void groupByFieldWithSort(SyncClient client) { //構建查詢語句。 SearchRequest searchRequest = SearchRequest.newBuilder() .tableName("tableName") .indexName("indexName") .searchQuery( SearchQuery.newBuilder() .query(QueryBuilders.matchAll()) .limit(0) .addGroupBy(GroupByBuilders .groupByField("name1", "column_type") //.addGroupBySorter(GroupBySorter.subAggSortInAsc("subName1")) //按照子統計彙總結果中的值升序排序。 .addGroupBySorter(GroupBySorter.groupKeySortInAsc()) //按照統計彙總結果中的值升序排序。 //.addGroupBySorter(GroupBySorter.rowCountSortInDesc()) //按照統計彙總結果中的行數降序排序。 .size(20) .addSubAggregation(AggregationBuilders.min("subName1", "column_price")) .addSubAggregation(AggregationBuilders.max("subName2", "column_price")) ) .build()) .build(); //執行查詢。 SearchResponse resp = client.search(searchRequest); }
範圍分組
根據一個欄位的範圍對查詢結果進行分組,欄位值在某範圍內放到同一分組內,返回每個範圍中相應的item個數。
- 參數
參數 說明 groupByName 自訂的統計彙總名稱,用於區分不同的統計彙總,可根據此名稱擷取本次統計彙總結果。 fieldName 用於統計彙總的欄位,僅支援Long和Double類型。 range[double_from, double_to) 分組的範圍。 起始值double_from可以使用最小值Double.MIN_VALUE,結束值double_to可以使用最大值Double.MAX_VALUE。
subAggregation和subGroupBy 子統計彙總,子統計彙總會根據分組內容再進行一次統計彙總分析。 例如按銷量分組後再按省份分組,即可獲得某個銷量範圍內哪個省比重比較大,實現方法是GroupByRange下添加一個GroupByField。
- 樣本
/** * 求商品銷量時按[0,1000)、[1000,5000)、[5000,Double.MAX_VALUE)這些分組計算每個範圍的銷量。 */ public void groupByRange(SyncClient client) { //構建查詢語句。 SearchRequest searchRequest = SearchRequest.newBuilder() .tableName("tableName") .indexName("indexName") .searchQuery( SearchQuery.newBuilder() .query(QueryBuilders.matchAll()) .limit(0) .addGroupBy(GroupByBuilders .groupByRange("name1", "column_number") .addRange(0, 1000) .addRange(1000, 5000) .addRange(5000, Double.MAX_VALUE) ) .build()) .build(); //執行查詢。 SearchResponse resp = client.search(searchRequest); //擷取統計彙總結果。 for (GroupByRangeResultItem item : resp.getGroupByResults().getAsGroupByRangeResult("name1").getGroupByRangeResultItems()) { //列印個數。 System.out.println(item.getRowCount()); } }
地理位置分組
根據距離某一個中心點的範圍對查詢結果進行分組,距離差值在某範圍內放到同一分組內,返回每個範圍中相應的item個數。
- 參數
參數 說明 groupByName 自訂的統計彙總名稱,用於區分不同的統計彙總,可根據此名稱擷取本次統計彙總結果。 fieldName 用於統計彙總的欄位,僅支援Geo_point類型。 origin(double lat, double lon) 起始中心點的經緯度。 double lat是起始中心點緯度,double lon是起始中心點經度。
range[double_from, double_to) 分組的範圍,單位為米。 起始值double_from可以使用最小值Double.MIN_VALUE,結束值double_to可以使用最大值Double.MAX_VALUE。
subAggregation和subGroupBy 子統計彙總,子統計彙總會根據分組內容再進行一次統計彙總分析。 - 樣本
/** * 求距離萬達廣場[0,1000)、[1000,5000)、[5000,Double.MAX_VALUE)這些範圍內的人數,距離的單位為米。 */ public void groupByGeoDistance(SyncClient client) { //構建查詢語句。 SearchRequest searchRequest = SearchRequest.newBuilder() .tableName("tableName") .indexName("indexName") .searchQuery( SearchQuery.newBuilder() .query(QueryBuilders.matchAll()) .limit(0) .addGroupBy(GroupByBuilders .groupByGeoDistance("name1", "column_geo_point") .origin(3.1, 6.5) .addRange(0, 1000) .addRange(1000, 5000) .addRange(5000, Double.MAX_VALUE) ) .build()) .build(); //執行查詢。 SearchResponse resp = client.search(searchRequest); //擷取統計彙總結果。 for (GroupByGeoDistanceResultItem item : resp.getGroupByResults().getAsGroupByGeoDistanceResult("name1").getGroupByGeoDistanceResultItems()) { //列印個數。 System.out.println(item.getRowCount()); } }
過濾條件分組
按照過濾條件對查詢結果進行分組,擷取每個過濾條件匹配到的數量,返回結果的順序和添加過濾條件的順序一致。
- 參數
參數 說明 groupByName 自訂的統計彙總名稱,用於區分不同的統計彙總,可根據此名稱擷取本次統計彙總結果。 filter 過濾條件,返回結果的順序和添加過濾條件的順序一致。 subAggregation和subGroupBy 子統計彙總,子統計彙總會根據分組內容再進行一次統計彙總分析。 - 樣本
/** * 按照過濾條件進行分組,例如添加三個過濾條件(銷量大於100、產地是浙江省、描述中包含杭州關鍵詞),然後擷取每個過濾條件匹配到的數量。 */ public void groupByFilter(SyncClient client) { //構建查詢語句。 SearchRequest searchRequest = SearchRequest.newBuilder() .tableName("tableName") .indexName("indexName") .searchQuery( SearchQuery.newBuilder() .query(QueryBuilders.matchAll()) .limit(0) .addGroupBy(GroupByBuilders .groupByFilter("name1") .addFilter(QueryBuilders.range("number").greaterThanOrEqual(100)) .addFilter(QueryBuilders.term("place","浙江省")) .addFilter(QueryBuilders.match("text","杭州")) ) .build()) .build(); //執行查詢。 SearchResponse resp = client.search(searchRequest); //按照過濾條件的順序擷取的統計彙總結果。 for (GroupByFilterResultItem item : resp.getGroupByResults().getAsGroupByFilterResult("name1").getGroupByFilterResultItems()) { //列印個數。 System.out.println(item.getRowCount()); } }
長條圖統計
按照指定資料間隔對查詢結果進行分組,欄位值在相同範圍內放到同一分組內,返回每個分組的值和該值對應的個數。
- 參數
參數 說明 groupByName 自訂的統計彙總名稱,用於區分不同的統計彙總,可根據此名稱擷取本次統計彙總結果。 fieldName 用於統計彙總的欄位,僅支援Long和Double類型。 interval 統計間隔。 fieldRange[min,max] 統計範圍,與interval參數配合使用限制分組的數量。 (fieldRange.max-fieldRange.min)/interval
的值不能超過2000。minDocCount 最小行數。當分組中的行數小於最小行數時,不會返回此分組的統計結果。 missing 當某行資料中的欄位為空白時,欄位值的預設值。 - 如果未設定missing值,則在統計彙總時會忽略該行。
- 如果設定了missing值,則使用missing值作為欄位值的預設值參與統計彙總。
- 樣本
/** * 統計不同年齡段使用者數量分布情況。 */ public static void groupByHistogram(SyncClient client) { //構建查詢語句。 SearchRequest searchRequest = SearchRequest.newBuilder() .tableName("tableName") .indexName("indexName") .searchQuery( SearchQuery.newBuilder() .addGroupBy(GroupByBuilders .groupByHistogram("groupByHistogram", "age") .interval(10) .minDocCount(0L) .addFieldRange(0, 99)) .build()) .build(); //執行查詢。 SearchResponse resp = ots.search(searchRequest); //擷取長條圖的統計彙總結果。 GroupByHistogramResult results = resp.getGroupByResults().getAsGroupByHistogramResult("groupByHistogram"); for (GroupByHistogramItem item : results.getGroupByHistogramItems()) { System.out.println("key:" + item.getKey().asLong() + " value:" + item.getValue()); } }
擷取統計彙總分組中的行
對查詢結果進行分組後,擷取每個分組內的一些行資料,可實現和MySQL中ANY_VALUE(field)類似的功能。
- 參數
參數 說明 aggregationName 自訂的統計彙總名稱,用於區分不同的統計彙總,可根據此名稱擷取本次統計彙總結果。 limit 每個分組內最多返回的資料行數,預設返回1行資料。 sort 分組內資料的排序方式。 columnsToGet 指定返回的欄位,僅支援多元索引中的欄位,且不支援數組、Date、Geopoint和Nested類型的欄位。 該參數複用SearchRequest中的columnsToGet參數,在SearchRequest中指定columnsToGet即可。
- 樣本
/** * 某學校有一個活動報名表,活動報名表中包含學生姓名、班級、班主任、班長等資訊,如果希望按班級進行分組,以查看每個班級的報名情況,同時擷取班級的屬性資訊。 * 等效的SQL語句是select className, teacher, monitor, COUNT(*) as number from table GROUP BY className。 */ public void testTopRows(SyncClient client) { SearchRequest searchRequest = SearchRequest.newBuilder() .indexName("indexName") .tableName("tableName") .searchQuery( SearchQuery.newBuilder() .query(QueryBuilders.matchAll()) .limit(0) .addGroupBy(GroupByBuilders.groupByField("groupName", "className") .size(5) //返回的分組數量,最大值請參見“多元索引使用限制”文檔中的限制性“GroupByField返回的分組個數”。 .addSubAggregation(AggregationBuilders.topRows("topRowsName") .limit(1) .sort(new Sort(Arrays.asList(new FieldSort("teacher", SortOrder.DESC)))) // topRows的排序 ) ) .build()) .addColumnsToGet(Arrays.asList("teacher", "monitor")) .build(); SearchResponse resp = client.search(searchRequest); List<GroupByFieldResultItem> items = resp.getGroupByResults().getAsGroupByFieldResult("groupName").getGroupByFieldResultItems(); for (GroupByFieldResultItem item : items) { String className = item.getKey(); long number = item.getRowCount(); List<Row> topRows = item.getSubAggregationResults().getAsTopRowsAggregationResult("topRowsName").getRows(); Row row = topRows.get(0); String teacher = row.getLatestColumn("teacher").getValue().asString(); String monitor = row.getLatestColumn("monitor").getValue().asString(); } }
嵌套
分組類型的統計彙總功能支援嵌套,其內部可以添加子統計彙總。
- GroupBy+SubGroupBy:按省份分組後再按照城市分組,擷取每個省份下每個城市的資料。
- GroupBy+SubAggregation:按照省份分組後再求某個指標的最大值,擷取每個省的某個指標最大值。
public void subGroupBy(SyncClient client) {
//構建查詢語句。
SearchRequest searchRequest = SearchRequest.newBuilder()
.indexName("index_name")
.tableName("table_name")
.returnAllColumns(true)
.searchQuery(
SearchQuery.newBuilder()
.query(QueryBuilders.match("textField", "hello"))
.limit(10)
.addAggregation(AggregationBuilders.min("name1", "fieldName1"))
.addAggregation(AggregationBuilders.max("name2", "fieldName2"))
.addGroupBy(GroupByBuilders
.groupByField("name3", "fieldName3")
.addSubAggregation(AggregationBuilders.max("subName1", "fieldName4"))
.addSubAggregation(AggregationBuilders.sum("subName2", "fieldName5"))
.addSubGroupBy(GroupByBuilders
.groupByRange("subName3", "fieldName6")
.addRange(12, 90)
.addRange(100, 900)
))
.build())
.build();
//執行查詢。
SearchResponse resp = client.search(searchRequest);
//擷取第一層求最小值和求最大值的統計彙總結果。
AggregationResults aggResults = resp.getAggregationResults();
System.out.println(aggResults.getAsMinAggregationResult("name1").getValue());
System.out.println(aggResults.getAsMaxAggregationResult("name2").getValue());
//擷取第一層按欄位值分組的統計彙總結果,並同時擷取其嵌套的子統計彙總結果。
GroupByFieldResult results = resp.getGroupByResults().getAsGroupByFieldResult("name3");
for (GroupByFieldResultItem item : results.getGroupByFieldResultItems()) {
System.out.println("數量:" + item.getRowCount());
System.out.println("key:" + item.getKey());
//擷取子統計彙總結果。
//列印求最大值的子統計彙總結果。
System.out.println(item.getSubAggregationResults().getAsMaxAggregationResult("subName1"));
//列印求和的子統計彙總結果。
System.out.println(item.getSubAggregationResults().getAsSumAggregationResult("subName2"));
//列印按範圍分組的子統計彙總結果。
GroupByRangeResult subResults = item.getSubGroupByResults().getAsGroupByRangeResult("subName3");
for (GroupByRangeResultItem subItem : subResults.getGroupByRangeResultItems()) {
System.out.println(String.format("from:%s, to:%s, count:%s", subItem.getFrom(), subItem.getTo(), subItem.getRowCount()));
}
}
}
多個統計彙總
- 樣本1
public void multipleAggregation(SyncClient client) { //構建查詢語句。 SearchRequest searchRequest = SearchRequest.newBuilder() .tableName("tableName") .indexName("indexName") .searchQuery( SearchQuery.newBuilder() .query(QueryBuilders.matchAll()) .limit(0) .addAggregation(AggregationBuilders.min("name1", "long")) .addAggregation(AggregationBuilders.sum("name2", "long")) .addAggregation(AggregationBuilders.distinctCount("name3", "long")) .build()) .build(); //執行查詢。 SearchResponse resp = client.search(searchRequest); //擷取求最小值的統計彙總結果。 System.out.println(resp.getAggregationResults().getAsMinAggregationResult("name1").getValue()); //擷取求和的統計彙總結果。 System.out.println(resp.getAggregationResults().getAsSumAggregationResult("name2").getValue()); //擷取去重統計行數的統計彙總結果。 System.out.println(resp.getAggregationResults().getAsDistinctCountAggregationResult("name3").getValue()); }
- 樣本2
public void multipleGroupBy(SyncClient client) { //構建查詢語句。 SearchRequest searchRequest = SearchRequest.newBuilder() .tableName("tableName") .indexName("indexName") .searchQuery( SearchQuery.newBuilder() .query(QueryBuilders.matchAll()) .limit(0) .addAggregation(AggregationBuilders.min("name1", "long")) .addAggregation(AggregationBuilders.sum("name2", "long")) .addAggregation(AggregationBuilders.distinctCount("name3", "long")) .addGroupBy(GroupByBuilders.groupByField("name4", "type")) .addGroupBy(GroupByBuilders.groupByRange("name5", "long").addRange(1, 15)) .build()) .build(); //執行查詢。 SearchResponse resp = client.search(searchRequest); //擷取求最小值的統計彙總結果。 System.out.println(resp.getAggregationResults().getAsMinAggregationResult("name1").getValue()); //擷取求和的統計彙總結果。 System.out.println(resp.getAggregationResults().getAsSumAggregationResult("name2").getValue()); //擷取去重統計行數的統計彙總結果。 System.out.println(resp.getAggregationResults().getAsDistinctCountAggregationResult("name3").getValue()); //擷取按欄位值分組的統計彙總結果。 for (GroupByFieldResultItem item : resp.getGroupByResults().getAsGroupByFieldResult("name4").getGroupByFieldResultItems()) { //列印key。 System.out.println(item.getKey()); //列印個數。 System.out.println(item.getRowCount()); } //擷取按範圍分組的統計彙總結果。 for (GroupByRangeResultItem item : resp.getGroupByResults().getAsGroupByRangeResult("name5").getGroupByRangeResultItems()) { //列印個數。 System.out.println(item.getRowCount()); } }