在服务端对读取结果再进行一次过滤,根据过滤器(Filter)中的条件决定返回的行。使用过滤器后,只返回符合条件的数据行,从而有效降低网络传输的数据量,减少响应时间。

场景

  • 直接过滤结果

    以物联网中的智能电表为例,智能电表按一定的频率(例如每隔15秒)将当前的电压、电流、度数等信息写入表格存储。在按天做分析时,需要获取某一个电表当天是否出现过电压异常以及出现时的其他状态数据,用于判断是否需要对某条线路进行检修。

    按照目前的方案,使用GetRange读取一个电表一天内的所有的监控数据,共有5760条,然后再对5760条信息进行过滤,最终获取了10个电压出现不稳定时的监控信息。

    使用过滤器只返回了实际需要的10条数据,有效降低了返回的数据量。而且无需再对结果进行初步的过滤处理,节省了开发成本。

  • 正则匹配并转换数据类型后再过滤结果

    当某些列中存储了自定义格式数据(例如JSON格式字符串)时,如果用户希望过滤查询该列的某个子字段值,则可以通过正则表达式匹配并转换子字段值类型后,再使用过滤器来过滤需要的数据。

    例如列中存储的数据为{cluster_name:name1,lastupdatetime:12345}格式,如果需要过滤查询lastupdatetime>12345的行数据,此时您可以通过正则表达式lastupdatetime:([0-9]+)}来匹配该列中子字段的数据,然后将匹配结果使用CAST转换为数值类型,再进行数值类型的比较,从而过滤得到所需要的数据行。

限制

  • 过滤器的条件支持关系运算(=、!=、>、>=、<、<=)和逻辑运算(NOT、AND、OR),最多支持10个条件的组合。
  • 过滤器中的参考列必须在读取的结果内。如果指定的要读取的列中不包含参考列,则过滤器无法获取参考列的值。
  • 使用GetRange接口时,一次扫描数据的行数不能超过5000行或者数据大小不能超过4 MB。

    当在该次扫描的5000行或者4 MB数据中没有满足过滤器条件的数据时,得到的Response中的Rows为空,但是NextStartPrimaryKey可能不为空,此时需要使用NextStartPrimaryKey继续读取数据,直到NextStartPrimaryKey为空。

接口

过滤器可以用于GetRowBatchGetRowGetRange。在GetRow、BatchGetRow和GetRange接口中使用过滤器不会改变接口的原生语义和限制项,具体操作,请参见单行数据操作多行数据操作

过滤器目前包括SingleColumnValueFilter、SingleColumnValueRegexFilter和CompositeColumnValueFilter,是基于一个或者多个参考列的列值决定是否过滤某行。

  • SingleColumnValueFilter:只判断某个参考列的列值。

    当参考列不存在时,可以使用PassIfMissing参数决定此时是否满足条件,即设置当参考列不存在时的行为。

  • SingleColumnValueRegexFilter:支持对类型为String的列值,使用正则表达式进行子字符串匹配,然后根据实际将匹配到的子字符串转换为String、Integer或者Double类型,再使用过滤器进行过滤。
    注意 只有Java SDK支持使用SingleColumnValueRegexFilter过滤器。
  • CompositeColumnValueFilter:根据多个参考列的列值的判断结果进行逻辑组合,决定是否过滤某行。

使用

您可以使用如下语言的SDK实现过滤器功能。

参数

参数 说明
ColumnName 过滤器中参考列的名称。
ColumnValue 过滤器中参考列的对比值。
CompareOperator 过滤器中的关系运算符。

关系运算符包括EQUAL(=)、NOT_EQUAL(!=)、GREATER_THAN(>)、GREATER_EQUAL(>=)、LESS_THAN(<)和LESS_EQUAL(<=)。

LogicOperator 过滤器中的逻辑运算符。

逻辑运算符包括NOT、AND和OR。

PassIfMissing 当参考列在某行中不存在时,是否返回该行。取值范围如下:
  • true(默认):如果参考列在某行中不存在时,则返回该行。
  • false:如果参考列在某行中不存在时,则不返回该行。
LatestVersionsOnly 当参考列存在多个版本的数据时,是否只使用最新版本的值做比较。类型为bool值,默认值为true,表示如果参考列存在多个版本的数据时,则只使用该列最新版本的值进行比较。

当设置LatestVersionsOnly为false时,如果参考列存在多个版本的数据时,则会使用该列的所有版本的值进行比较,此时只要有一个版本的值满足条件,就返回该行。

Regex 正则表达式,用于匹配子字段值。正则表达式必须满足以下条件:
  • 长度不能超过256个字节。
  • 支持perl regular语法。
  • 支持单字节正则表达式。
  • 不支持中文的正则匹配。
  • 支持正则表达式的全匹配模式和部分匹配模式。

    部分匹配的正则表达式在模式中由一对括号(…)分隔。

    如果正则表达式为全匹配模式,则返回第一个匹配结果;如果正则表达式中包含部分匹配语法,则返回第一个满足的子匹配结果。例如列值为1aaa51bbb5,如果正则表达式为1[a-z]+5时,则返回值为1aaa5;如果正则表达式为1([a-z]+)5,则返回值为aaa。

VariantType 使用正则表达式匹配到子字段值后,子字段值转换为的类型。取值范围为VT_INTEGER(整型)、VT_STRING(字符串类型)和VT_DOUBLE(双精度浮点型)。

示例

  • 构造SingleColumnValueFilter。
      //设置过滤器,当Col0列的值为0时,返回该行。
      SingleColumnValueFilter singleColumnValueFilter = new SingleColumnValueFilter("Col0",
              SingleColumnValueFilter.CompareOperator.EQUAL, ColumnValue.fromLong(0));
      //如果不存在Col0列,也不返回该行。
      singleColumnValueFilter.setPassIfMissing(false);
      //只使用该列最新版本的值进行比较。
      singleColumnValueFilter.setLatestVersionsOnly(true);
                        
  • 构造SingleColumnValueRegexFilter。
     //构造正则抽取规则。
     RegexRule regexRule = new RegexRule("t1:([0-9]+),", VariantType.Type.VT_INTEGER);
     //设置过滤器,实现cast<int>(regex(col1)) > 0。
     //构造SingleColumnValueRegexFilter,格式为“列名,正则规则,比较符,比较值”。
     SingleColumnValueRegexFilter filter =  new SingleColumnValueRegexFilter("Col1",
         regexRule,SingleColumnValueFilter.CompareOperator.GREATER_THAN, ColumnValue.fromLong(0));
     //如果不存在Col0列,也不返回该行。
     filter.setPassIfMissing(false);
  • 构造CompositeColumnValueFilter。
      //composite1的条件为(Col0 == 0) AND (Col1 > 100)。
      CompositeColumnValueFilter composite1 = new CompositeColumnValueFilter(CompositeColumnValueFilter.LogicOperator.AND);
      SingleColumnValueFilter single1 = new SingleColumnValueFilter("Col0",
              SingleColumnValueFilter.CompareOperator.EQUAL, ColumnValue.fromLong(0));
      SingleColumnValueFilter single2 = new SingleColumnValueFilter("Col1",
              SingleColumnValueFilter.CompareOperator.GREATER_THAN, ColumnValue.fromLong(100));
      composite1.addFilter(single1);
      composite1.addFilter(single2);
    
      //composite2的条件为( (Col0 == 0) AND (Col1 > 100) ) OR (Col2 <= 10)。
      CompositeColumnValueFilter composite2 = new CompositeColumnValueFilter(CompositeColumnValueFilter.LogicOperator.OR);
      SingleColumnValueFilter single3 = new SingleColumnValueFilter("Col2",
              SingleColumnValueFilter.CompareOperator.LESS_EQUAL, ColumnValue.fromLong(10));
      composite2.addFilter(composite1);
      composite2.addFilter(single3);                   

计费

使用过滤器功能不影响现有计费规则。

使用过滤器后,可以有效降低返回的数据量,但是由于过滤计算是服务器端在返回数据前进行的,并未降低磁盘IO次数,所以消耗的读CU与不使用过滤器时相同。例如使用GetRange读取到100条记录,共200 KB数据,消耗了50单位读CU,在使用过滤器后,实际只返回了10条数据,共20 KB,但是仍然会消耗50单位读CU。