Elasticsearch_1. 简单入门

作者: 小疯子 分类: Elasticsearch,Spring Boot 发布时间: 2019-05-17 12:34

一、参考链接:

  1. Elasticsearch 6.1官方入门教程
  2. Kibana官方用户手册

二、基础概念

这里有一些Elasticsearch的核心概念。在一开始理解这些概念将会极大的使你的学习过程变得更加轻松。

  1. 近实时性(Near Realtime[NRT])
    Elasticsearch是一个近实时的搜索平台。这意味着当你导入一个文档并把它变成可搜索的时间仅会有轻微的延时。
  2. 集群(Cluster)
    一个集群是由一个或多个节点(服务器)组成的,通过所有的节点一起保存你的全部数据并且提供联合索引和搜索功能的节点集合。每个集群有一个唯一的名称标识,默认是“elasticsearch”。这个名称非常重要,因为一个节点(Node)只有设置了这个名称才能加入集群,成为集群的一部分。确保你没有在不同的环境下重用相同的名称,否则你最终可能会将节点加入错误的集群。例如你可以使用logging-dev,logging-stage和logging-prod来分别给开发,展示和生产集群命名。
    注意,一个集群中只有一个节点是有效的并且是非常好的。所以这样的话,你可能需要部署多个集群并且每个集群有它们唯一的集群名称。
  3. 节点(Node)
    一个节点是一个单一的服务器,是你的集群的一部分,存储数据,并且参与集群的索引和搜索功能。跟集群一样,节点在启动时也会被分配一个唯一的标识名称,这个名称默认是一个随机的UUID(Universally Unique IDentifier)。如果你不想用默认的名称,你可以自己定义节点的名称。这个名称对于管理集群节点,识别哪台服务器对应集群中的哪个节点有重要的作用。一个节点可以通过配置特定的集群名称来加入特定的集群。默认情况下,每个节点被设定加入一个名称为“elasticsearch”的集群,这意味着如果你在你的网络中启动了一些节点,并且假设它们能相互发现,它们将会自动组织并加入一个名称是“elasticsearch”的集群。在一个集群中,你想启动多少节点就可以启动多少节点。此外,如果没有其它节点运行在当前网络中,只启动一个节点将默认形成一个新的名称为“elasticsearch”单节点集群。
  4. 索引(Index)
    一个索引就是含有某些相似特性的文档的集合。例如,你可以有一个用户数据的索引,一个产品目录的索引,还有其他的有规则数据的索引。一个索引被一个名称(必须都是小写)唯一标识,并且这个名称被用于索引通过文档去执行索引,搜索,更新和删除操作。在一个集群中,你可以根据自己的需求定义任意多的索引。
  5. 类型(Type)[Deprecated in 6.0.0.]
    警告!Type在6.0.0版本中已经不赞成使用
    一个类型是你的索引中的一个分类或者说是一个分区,它可以让你在同一索引中存储不同类型的文档,例如,为用户建一个类型,为博客文章建另一个类型。现在已不可能在同一个索引中创建多个类型,并且整个类型的概念将会在未来的版本中移除。查看“映射类型的移除[https://www.elastic.co/guide/en/elasticsearch/reference/current/removal-of-types.html]”了解更多。
  6. 文档(Document)
    一个文档是一个可被索引的数据的基础单元。例如,你可以给一个单独的用户创建一个文档,给单个产品创建一个文档,以及其他的单独的规则。这个文档用JSON格式表现,JSON是一种普遍的网络数据交换格式。在一个索引或类型中,你可以根据自己的需求存储任意多的文档。注意,虽然一个文档在物理存储上属于一个索引,但是文档实际上必须指定一个在索引中的类型。
  7. 分片和复制(Shards & Replicas)
    我们在一个索引里存储的数据,潜在的情况下可能会超过单节点硬件的存储限制。例如,单个索引有上千万个文档需要占用1TB的硬盘存储空间,但是一台机器的硬盘可能没有这么大,或者是即便有这么大,但是单个节点在提供搜索服务时会响应缓慢。为了解决这个问题,Elasticsearch提供了分片的能力,它可以将你的索引细分成多个部分。当你创建一个索引的时候,你可以简单的定义你想要的分片的数量。每个分片本身是一个全功能的完全独立的“索引”,它可以部署在集群中的任何节点上。分片对于以下两个主要原因很重要:
    * 它允许你水平切分你的内容卷
    * 它允许你通过分片来分布和并行化执行操作来应对日益增长的执行量一个分片是如何被分配以及文档又是如何被聚集起来以应对搜索请求的,它的实现技术由Elasticsearch完全管理,并且对用户是透明的。
    在一个网络环境下或者是云环境下,故障可能会随时发生,有一个故障恢复机制是非常有用并且是高度推荐的,以防一个分片或节点不明原因下线,或者因为一些原因去除没有了。为了达到这个目的,Elasticsearch允许你制作分片的一个或多个拷贝放入一个叫做复制分片或短暂复制品中。复制对于以下两个主要原因很重要:
    * 高可用。它提供了高可用来以防分片或节点宕机。为此,一个非常重要的注意点是绝对不要将一个分片的拷贝放在跟这个分片相同的机器上。
    * 高并发。它允许你的分片可以提供超出自身吞吐量的搜索服务,搜索行为可以在分片所有的拷贝中并行执行。总结一下,每个索引可以被切分成多个分片,一个索引可以被复制零次(就是没有复制)或多次。一旦被复制,每个索引将会有一些主分片(就是那些最原始不是被复制出来的分片),还有一些复制分片(就是那些通过复制主分片得到的分片)。主分片和复制分片的数量可以在索引被创建时指定。索引被创建后,你可以随时动态修改复制分片的数量,但是不能修改主分片的数量。
    默认情况下,在Elasticsearch中的每个索引被分配5个主分片和一份拷贝,这意味着假设你的集群中至少有两个节点,你的索引将会有5个主分片和5个复制分片(每个主分片对应一个复制分片,5个复制分片组成一个完整拷贝),总共每个索引有10个分片。每个Elasticsearch分片是一个Lucene索引。在一个Lucene索引中有一个文档数量的最大值。截至LUCENE-5843,这个限制是2,147,483,519 (= Integer.MAX_VALUE - 128)个文档。你可以使用_cat/shards API监控分片大小。
    分片相关知识了解:分片预分配\副本分片

现在熟悉了概念之后,让我们开始有趣的部分吧…

三、安装搭建

目前我自己这边只是使用了windows版的安装操作如下:

windows下安装elasticsearch的zip包,然后解压缩,执行bin/elasticsearch.bat这个文件;
注意不要光标移动到黑窗口上,否则就处于debug模式就停止了,导致kibana无法连接成功;
elasticsearch和kibana的版本号最好保持一致,免得出现新的问题啥的
windows版:
elasticsearch百度云存放地址:
链接:https://pan.baidu.com/s/1SeVhvWRiXuhc-fxPFTmPlw
提取码:haaj
kibana百度云存放地址:
链接:https://pan.baidu.com/s/1nDPz8icP05n97baaLcqTmw
提取码:kj5l
关于kibana配置文件在config/kibana.yml文件中进行配置,启动也是bin目录下的kibana进行启动;
elasticsearch的端口是9200,kibana的端口是5601;

四、具体使用

当时的学习路程是首先是根据Elasticsearch 6.1官方入门教程中的“探究你的集群”模块入门的;
然后安装完Kibana之后进行的中Det Tools中执行命令参考如下链接:ElasticSearch教程——Kibana简单操作ES

运行、打开kibana相关工具
要先运行ElasticSearch

然后运行Kibana
打开对应的dev Tools左侧标签

1. 获取所有数据

GET /_search

返回结果

{
  "took": 76, 
  "timed_out": false, 
  "_shards": {
    "total": 16, 
    "successful": 16, 
    "skipped": 0, 
    "failed": 0
  }, 
  "hits": {
    "total": 8, 
    "max_score": 1, 
    "hits": [
      {
        "_index": ".kibana", 
        "_type": "doc", 
        "_id": "config:6.4.0", 
        "_score": 1, 
        "_source": {
          "type": "config", 
          "updated_at": "2018-09-18T09:30:18.949Z", 
          "config": {
            "buildNum": 17929, 
            "telemetry:optIn": true
          }
        }
      }, 
      {
        "_index": "blog", 
        "_type": "article", 
        "_id": "eTmX5mUBtZGWutGW0TNs", 
        "_score": 1, 
        "_source": {
          "title": "New version of Elasticsearch released!", 
          "content": "Version 1.0 released today!", 
          "priority": 10, 
          "tags": [
            "announce", 
            "elasticsearch", 
            "release"
          ]
        }
      }, 
      {
        "_index": "ecommerce", 
        "_type": "product", 
        "_id": "2", 
        "_score": 1, 
        "_source": {
          "name": "jiajieshi yagao", 
          "desc": "youxiao fangzhu", 
          "price": 25, 
          "producer": "jiajieshi producer", 
          "tags": [
            "fangzhu"
          ]
        }
      }, 
      {
        "_index": "ecommerce", 
        "_type": "product", 
        "_id": "J3fLFWYBBoLynJN1-kOG", 
        "_score": 1, 
        "_source": {
          "name": "test yagao", 
          "desc": "youxiao fangzhu"
        }
      }, 
      {
        "_index": "blog", 
        "_type": "article", 
        "_id": "1", 
        "_score": 1, 
        "_source": {
          "id": "1", 
          "title": "New version of Elasticsearch released!", 
          "content": "Version 1.0 released today!", 
          "priority": 10, 
          "tags": [
            "announce", 
            "elasticsearch", 
            "release"
          ]
        }
      }, 
      {
        "_index": "ecommerce", 
        "_type": "product", 
        "_id": "KXfSFWYBBoLynJN1TUPo", 
        "_score": 1, 
        "_source": {
          "name": "test yagao2", 
          "desc": "youxiao fangzhu2"
        }
      }, 
      {
        "_index": "index", 
        "_type": "fulltext", 
        "_id": "1", 
        "_score": 1, 
        "_source": {
          "content": "中国驻洛杉矶领事馆遭亚裔男子枪击 嫌犯已自首"
        }
      }, 
      {
        "_index": "ecommerce", 
        "_type": "product", 
        "_id": "3", 
        "_score": 1, 
        "_source": {
          "name": "zhonghua yagao", 
          "desc": "caoben zhiwu", 
          "price": 40, 
          "producer": "zhonghua producer", 
          "tags": [
            "qingxin"
          ]
        }
      }
    ]
  }
}
返回数据含义

took:耗费了几毫秒
timed_out:是否超时,false是没有,默认无timeout
_shards:shards fail的条件(primary和replica全部挂掉),不影响其他shard。默认情况下来说,一个搜索请求,会打到一个index的所有primary shard上去,当然了,每个primary shard都可能会有一个或多个replic shard,所以请求也可以到primary shard的其中一个replica shard上去。
hits.total:本次搜索,返回了几条结果
hits.max_score:score的含义,就是document对于一个search的相关度的匹配分数,越相关,就越匹配,分数也高
hits.hits:包含了匹配搜索的document的详细数据,默认查询前10条数据,按_score降序排序

timeout这边默认是没有的,也就意味着当你搜索的时候他会直到所有搜索结束才会返回结果,但是当我们做一些时间比较敏感的搜索的时候,等待时间很久,对用户来说是非常不友好的。那我们可以通过设置timeout这个值,来定时返回已经搜索到的数据。timeout机制,指定每个shard,就只能在timeout时间范围内,将搜索到的部分数据(也可能是搜索到的全部数据),直接返回给client,而不是等到所有数据全部搜索出来后再返回。
可以通过如下方式进行设置

timeout=10ms,timeout=1s,timeout=1m
GET /_search?timeout=10m

2. 创建Document

PUT /ecommerce/product/1
{
    "name" : "gaolujie yagao",
    "desc" :  "gaoxiao meibai",
    "price" :  30,
    "producer" :      "gaolujie producer",
    "tags": [ "meibai", "fangzhu" ]
}
PUT /ecommerce/product/2
{
    "name" : "jiajieshi yagao",
    "desc" :  "youxiao fangzhu",
    "price" :  25,
    "producer" :      "jiajieshi producer",
    "tags": [ "fangzhu" ]
}
PUT /ecommerce/product/3
{
    "name" : "zhonghua yagao",
    "desc" :  "caoben zhiwu",
    "price" :  40,
    "producer" :      "zhonghua producer",
    "tags": [ "qingxin" ]
}

3. 检索文档(查询)

GET /ecommerce/product/1

返回结果

{
  "_index": "ecommerce",
  "_type": "product",
  "_id": "1",
  "_version": 1,
  "found": true,
  "_source": {
    "name": "gaolujie yagao",
    "desc": "gaoxiao meibai",
    "price": 30,
    "producer": "gaolujie producer",
    "tags": [
      "meibai",
      "fangzhu"
    ]
  }
}

4. 替换文档(全量替换)

PUT /ecommerce/product/1
{
"name" : "jiaqiangban gaolujie yagao",
"desc" : "gaoxiao meibai",
"price" : 30,
"producer" : "gaolujie producer",
"tags": [ "meibai", "fangzhu" ]
}

返回结果

{
"_index": "ecommerce",
"_type": "product",
"_id": "1",
"_version": 2,
"result": "updated",
"_shards": {
  "total": 2,
  "successful": 1,
  "failed": 0
},
"_seq_no": 1,
"_primary_term": 1
}

document结果

{
"_index": "ecommerce",
"_type": "product",
"_id": "1",
"_version": 2,
"found": true,
"_source": {
    "name": "jiaqiangban gaolujie yagao"
  }
}

5. 注意点

  1. document是不可变的,如果要修改document的内容,可以通过全量替换,直接对document重新建立索引,替换里面所有的内容。
  2. es会将老的document标记为deleted(逻辑删除),然后新增我们给定的一个document,当我们创建越来越多的document的时候,es会在适当的时机在后台自动删除(物理删除)标记为deleted的document。
  3. 替换必须带上所有的field,否则其他数据会丢失。

6. 更新文档(修改)

原理参考:ElasticSearch教程——partial update(更新文档)实现原理及并发控制

POST /ecommerce/product/1/_update
{
  "doc": {
    "name": "jiaqiangban gaolujie yagao"
  }
}

返回结果

{
  "_index": "ecommerce",
  "_type": "product",
  "_id": "1",
  "_version": 5,
  "result": "updated",
  "_shards": {
    "total": 2,
    "successful": 1,
    "failed": 0
  },
  "_seq_no": 4,
  "_primary_term": 1
}

document结果

{
  "_index": "ecommerce",
  "_type": "product",
  "_id": "1",
  "_version": 5,
  "found": true,
  "_source": {
    "name": "jiaqiangban gaolujie yagao",
    "desc": "gaoxiao meibai",
    "price": 30,
    "producer": "gaolujie producer",
    "tags": [
      "meibai",
      "fangzhu"
    ]
  }
}

7. 删除文档(删除)

DELETE /ecommerce/product/1

返回结果

{
  "_index": "ecommerce",
  "_type": "product",
  "_id": "1",
  "_version": 9,
  "result": "deleted",
  "_shards": {
    "total": 2,
    "successful": 1,
    "failed": 0
  },
  "_seq_no": 8,
  "_primary_term": 1
}

document结果

{
  "_index": "ecommerce",
  "_type": "product",
  "_id": "1",
  "found": false
}

注意:

在删除一个document之后,我们可以从侧面证明,它不是立即物理删除的,因为它的一些版本号等信息还是保留的。

 

8. 请求分类

8.1 query string search

类似这种 搜索全部商品:GET /ecommerce/product/_search(参数直接拼接在请求url上,不带json参数的)
query string search的由来,因为search参数都是以http请求的query string来附带的
搜索商品名称中包含yagao的商品,而且按照售价降序排序:GET /ecommerce/product/_search?q=name:yagao&sort=price:desc

适用于临时的在命令行使用一些工具,比如curl,快速的发出请求,来检索想要的信息;但是如果查询请求很复杂,是很难去构建的,所以在生产环境中,几乎很少使用query string search

8.2 query DSL

DSL:Domain Specified Language,特定领域的语言
http request body:请求体,可以用json的格式来构建查询语法,比较方便,可以构建各种复杂的语法,比query string search肯定强大多了。
更加适合生产环境的使用,可以构建复杂的查询
(1).查询所有的商品

GET /ecommerce/product/_search
{
"query": { "match_all": {} }
}

(2).查询名称包含yagao的商品,同时按照价格降序排序

GET /ecommerce/product/_search
{
"query" : {
"match" : {
"name" : "yagao"
}
},
"sort": [
{ "price": "desc" }
]
}

(3).分页查询
总共3条商品,假设每页就显示1条商品,现在显示第2页,所以就查出来第2个商品

GET /ecommerce/product/_search
{
"query": { "match_all": {} },
"from": 1,
"size": 1
}

(4).查询指定项
指定要查询出来商品的名称和价格

GET /ecommerce/product/_search
{
"query": { "match_all": {} },
"_source": ["name", "price"]
}

(5).过滤查询
搜索商品名称包含yagao,而且售价大于25元的商品

GET /ecommerce/product/_search
{
    "query" : {
        "bool" : {
            "must" : {
                "match" : {
                    "name" : "yagao" 
                }
            },
            "filter" : {
                "range" : {
                    "price" : { "gt" : 25 } 
                }
            }
        }
    }
}

(6).full-text search(全文检索)
GET /ecommerce/product/_search

{
  "query" : {
    "match" : {
      "producer" : "yagao producer"
    }
  }
}

(7).phrase search(短语搜索)
跟全文检索相对应,相反,全文检索会将输入的搜索串拆解开来,去倒排索引里面去一一匹配,只要能匹配上任意一个拆解后的单词,就可以作为结果返回
phrase search,要求输入的搜索串,必须在指定的字段文本中,完全包含一模一样的,才可以算匹配,才能作为结果返回

GET /ecommerce/product/_search
{
  "query" : {
    "match_phrase" : {
      "producer" : "yagao producer"
    }
  }
}

(8).多条件查询
名字中有"yagao",描述上可以有fangzhu也可以没有,价格不能是25元

must表示一定要满足;

should表示可以满足也可以不满足;

must_not表示不能满足该条件;

"minimum_should_match": 1,表示最小匹配度,可以设置为百分百,详情看源文档Elasticsearch Reference [6.4] » Query DSL » Minimum Should Match,设置了这个值的时候就必须满足should里面的设置了,另外注意这边should里面同一字段设置的多个值(意思是当这个值等于X或者等于Y的时候都成立,务必注意格式)

GET /ecommerce/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "name": "yagao"
          }
        }
      ],
      "should": [
        {
          "match": {
            "desc": "fangzhu"
          }
        },
        {
          "match": {
            "desc": "caoben"
          }
        }
      ],
      "must_not": [
        {
          "match": {
            "price": 25
          }
        }
      ],
     "minimum_should_match": 1
    }
  }
}
0