Elasticsearch python api
1. Elasticsearch
1.1. 索引
Relational DB -> Databases -> Tables -> Rows -> Columns
Elasticsearch -> Indices -> Types -> Documents -> Fields
2. 特征
- 转化基础的python数据结构到json数据结构,或者把json的数据结构转化成python的数据结构(由于性能的原因,datetimes类型并没有转化)
- 自动发现集群结点可配置
- 持久连接
- 从可知的结点中负载均衡(通过pluggable selection strategy)
- 连接失败处罚(基于时间,也就是说连接失败了不会再次尝试连接直到timeout)
- 线程安全
- pluggable architecture
3. install
pypi: pip install elasticsearch
, pip install elasticsearch-dsl
4. elasticsearch-py usage
4.1. 建立ES连接
es = Elasticsearch()
es = Elasticsearch([{'host':'', 'port':9200}])
4.2. 增
- index
index(args, *kwargs)
parameters | note |
index | The name of the index |
doc_type | The type of the document, 数据类型 |
body | The document, 具体的数据 |
id | Document ID |
consistency | Explicit write consistency setting for the operation, valid choices are: ‘one’, ‘quorum’, ‘all’ |
op_type | Explicit operation type, default ‘index’, valid choices are: ‘index’, ‘create’ |
parent | ID of the parent document |
refresh | Refresh the index after performing the operation |
routing | Specific routing value |
timeout | Explicit operation timeout |
timestamp | Explicit timestamp for the document |
ttl | Expiration time for the document |
version | Explicit version number for concurrency control |
version_type | Specific version type, valid choices are: ‘internal’, ‘external’, ‘external_gte’, ‘force’ |
- create
JSON文档类型的索引, 调用index(..., op_type=’create’)
4.3. 查
- search
search(args, *kwargs)
parameters | note |
index | 索引名 |
q | 查询指定匹配 使用Lucene查询语法 |
from_ | 查询起始点 默认0 |
doc_type | 文档类型 |
size | 指定查询条数 默认10 |
field | 指定字段 逗号分隔 |
sort | 排序 字段:asc/desc |
body | 使用 Query DSL |
scroll | 滚动查询 |
5. Query DSL
5.1. range 过滤器查询范围
gt: > 大于
lt: < 小于
gte: >= 大于或等于
lte: <= 小于或等于
5.2. bool 组合过滤器
must:所有分句都必须匹配,与 AND 相同。
must_not:所有分句都必须不匹配,与 NOT 相同。
should:至少有一个分句匹配,与 OR 相同。
5.3. term 过滤器
"money": [20,30]
5.4. match查询
match 精确匹配
multi_match 多字段搜索
5.5. demo
- 获取最近一小时的数据
- 条件过滤查询
- Terms Facet 单字段统计
- 一次统计多个字段
- 多个字段一起统计