云計算大數(shù)據(jù)：ELK技術(shù)棧介紹

更新時間:2017-12-18 來源:黑馬程序員瀏覽量:

一、 ELK工作棧簡介

1. 簡介

ELK Stack 是 Elasticsearch、Logstash、Kibana 三個開源軟件的組合。在實時數(shù)據(jù)檢索和分析場合，三者通常是配合共用，而且又都先后歸于 Elastic.co 公司名下，故有此簡稱。

ELK Stack 在最近兩年迅速崛起，成為機器數(shù)據(jù)分析，或者說實時日志處理領(lǐng)域，開源界的第一選擇。和傳統(tǒng)的日志處理方案相比，ELK Stack 具有如下幾個優(yōu)點：

處理方式靈活。Elasticsearch 是實時全文索引，不需要像 storm 那樣預(yù)先編程才能使用;

配置簡易上手。Elasticsearch 全部采用 JSON 接口，Logstash 是 Ruby DSL 設(shè)計，都是目前業(yè)界最通用的配置語法設(shè)計;

檢索性能高效。雖然每次查詢都是實時計算，但是優(yōu)秀的設(shè)計和實現(xiàn)基本可以達到全天數(shù)據(jù)查詢的秒級響應(yīng);

集群線性擴展。不管是 Elasticsearch 集群還是 Logstash 集群都是可以線性擴展的;

前端操作炫麗。Kibana 界面上，只需要點擊鼠標(biāo)，就可以完成搜索、聚合功能，生成炫麗的儀表板。

當(dāng)然，ELK Stack 也并不是實時數(shù)據(jù)分析界的靈丹妙藥。在不恰當(dāng)?shù)膱鼍埃炊鴷卤豆Π?。我?2014 年初開 QQ 群交流 ELK Stack，發(fā)現(xiàn)網(wǎng)友們對 ELK Stack 的原理概念，常有誤解誤用;對實現(xiàn)的效果，又多有不能理解或者過多期望而失望之處。更令我驚奇的是，網(wǎng)友們廣泛分布在傳統(tǒng)企業(yè)和互聯(lián)網(wǎng)公司、開發(fā)和運維領(lǐng)域、Linux 和 Windows 平臺，大家對非專精領(lǐng)域的知識，一般都缺乏了解，這也成為使用 ELK Stack 時的一個障礙。

二、 Logstash數(shù)據(jù)采集工具安裝和使用

1. 官方網(wǎng)站

https://www.elastic.co/products/logstash#

2. 簡介

Logstash是一款輕量級的日志搜集處理框架，可以方便的把分散的、多樣化的日志搜集起來，并進行自定義的處理，然后傳輸?shù)街付ǖ奈恢?，比如某個服務(wù)器或者文件。

3. 安裝

下載后直接解壓，就可以了。

4. helloword使用

通過命令行，進入到logstash/bin目錄，執(zhí)行下面的命令：

logstash -e ""

可以看到提示下面信息(這個命令稍后介紹)，輸入hello world!

可以看到logstash尾我們自動添加了幾個字段，時間戳@timestamp，版本@version，輸入的類型type，以及主機名host。

4.1. 簡單的工作原理

Logstash使用管道方式進行日志的搜集處理和輸出。有點類似*NIX系統(tǒng)的管道命令 xxx | ccc | ddd，xxx執(zhí)行完了會執(zhí)行ccc，然后執(zhí)行ddd。

在logstash中，包括了三個階段:

輸入input --> 處理filter(不是必須的) --> 輸出output

每個階段都由很多的插件配合工作，比如file、elasticsearch、redis等等。

每個階段也可以指定多種方式，比如輸出既可以輸出到elasticsearch中，也可以指定到stdout在控制臺打印。

由于這種插件式的組織方式，使得logstash變得易于擴展和定制。

4.2. 命令行中常用的命令

-f：通過這個命令可以指定Logstash的配置文件，根據(jù)配置文件配置logstash

-e：后面跟著字符串，該字符串可以被當(dāng)做logstash的配置(如果是“” 則默認(rèn)使用stdin作為輸入，stdout作為輸出)

-l：日志輸出的地址(默認(rèn)就是stdout直接在控制臺中輸出)

-t：測試配置文件是否正確，然后退出。

4.3. 配置文件說明

前面介紹過logstash基本上由三部分組成，input、output以及用戶需要才添加的filter，因此標(biāo)準(zhǔn)的配置文件格式如下：

input {...}

filter {...}

output {...}

在每個部分中，也可以指定多個訪問方式，例如我想要指定兩個日志來源文件，則可以這樣寫：

input {

file { path =>"/var/log/messages" type =>"syslog"}

file { path =>"/var/log/apache/access.log" type =>"apache"}

}

類似的，如果在filter中添加了多種處理規(guī)則，則按照它的順序一一處理，但是有一些插件并不是線程安全的。

比如在filter中指定了兩個一樣的的插件，這兩個任務(wù)并不能保證準(zhǔn)確的按順序執(zhí)行，因此官方也推薦避免在filter中重復(fù)使用插件。

說完這些，簡單的創(chuàng)建一個配置文件的小例子看看：

input {

file {

#指定監(jiān)聽的文件路徑，注意必須是絕對路徑

path => "E:/software/logstash-1.5.4/logstash-1.5.4/data/test.log"

start_position => beginning

}

filter {

}

output {

stdout {}

}

日志大致如下：注意最后有一個空行。

1 hello,this is first line in test.log!

2 hello,my name is xingoo!

3 goodbye.this is last line in test.log!

執(zhí)行命令得到如下信息：

5. 最常用的input插件——file。

這個插件可以從指定的目錄或者文件讀取內(nèi)容，輸入到管道處理，也算是logstash的核心插件了，大多數(shù)的使用場景都會用到這個插件，因此這里詳細講述下各個參數(shù)的含義與使用。

5.1. 最小化的配置文件

在Logstash中可以在 input{} 里面添加file配置，默認(rèn)的最小化配置如下：

input {

file {

path => "E:/software/logstash-1.5.4/logstash-1.5.4/data/*"

}

filter {

}

output {

stdout {}

}

當(dāng)然也可以監(jiān)聽多個目標(biāo)文件：

input {

file {

path => ["E:/software/logstash-1.5.4/logstash-1.5.4/data/*","F:/test.txt"]

}

filter {

}

output {

stdout {}

}

5.2. 其他的配置

另外，處理path這個必須的項外，file還提供了很多其他的屬性：

input {

file {

#監(jiān)聽文件的路徑

path => ["E:/software/logstash-1.5.4/logstash-1.5.4/data/*","F:/test.txt"]

#排除不想監(jiān)聽的文件

exclude => "1.log"

#添加自定義的字段

add_field => {"test"=>"test"}

#增加標(biāo)簽

tags => "tag1"

#設(shè)置新事件的標(biāo)志

delimiter => "\n"

#設(shè)置多長時間掃描目錄，發(fā)現(xiàn)新文件

discover_interval => 15

#設(shè)置多長時間檢測文件是否修改

stat_interval => 1

#監(jiān)聽文件的起始位置，默認(rèn)是end

start_position => beginning

#監(jiān)聽文件讀取信息記錄的位置

sincedb_path => "E:/software/logstash-1.5.4/logstash-1.5.4/test.txt"

#設(shè)置多長時間會寫入讀取的位置信息

sincedb_write_interval => 15

}

filter {

}

output {

stdout {}

}

其中值得注意的是：

1 path

是必須的選項，每一個file配置，都至少有一個path

2 exclude

是不想監(jiān)聽的文件，logstash會自動忽略該文件的監(jiān)聽。配置的規(guī)則與path類似，支持字符串或者數(shù)組，但是要求必須是絕對路徑。

3 start_position

是監(jiān)聽的位置，默認(rèn)是end，即一個文件如果沒有記錄它的讀取信息，則從文件的末尾開始讀取，也就是說，僅僅讀取新添加的內(nèi)容。對于一些更新的日志類型的監(jiān)聽，通常直接使用end就可以了;相反，beginning就會從一個文件的頭開始讀取。但是如果記錄過文件的讀取信息，這個配置也就失去作用了。

4 sincedb_path

這個選項配置了默認(rèn)的讀取文件信息記錄在哪個文件中，默認(rèn)是按照文件的inode等信息自動生成。其中記錄了inode、主設(shè)備號、次設(shè)備號以及讀取的位置。因此，如果一個文件僅僅是重命名，那么它的inode以及其他信息就不會改變，因此也不會重新讀取文件的任何信息。類似的，如果復(fù)制了一個文件，就相當(dāng)于創(chuàng)建了一個新的inode，如果監(jiān)聽的是一個目錄，就會讀取該文件的所有信息。

5 其他的關(guān)于掃描和檢測的時間，按照默認(rèn)的來就好了，如果頻繁創(chuàng)建新的文件，想要快速監(jiān)聽，那么可以考慮縮短檢測的時間。

6 add_field

就是增加一個字段，例如：

file {

add_field => {"test"=>"test"}

path => "D:/tools/logstash/path/to/groksample.log"

start_position => beginning

}

6. 　Kafka與Logstash的數(shù)據(jù)采集對接

基于Logstash跑通Kafka還是需要注意很多東西，最重要的就是理解Kafka的原理。

6.1. Logstash工作原理

由于Kafka采用解耦的設(shè)計思想，并非原始的發(fā)布訂閱，生產(chǎn)者負(fù)責(zé)產(chǎn)生消息，直接推送給消費者。而是在中間加入持久化層——broker,生產(chǎn)者把數(shù)據(jù)存放在broker中，消費者從broker中取數(shù)據(jù)。這樣就帶來了幾個好處:

1 生產(chǎn)者的負(fù)載與消費者的負(fù)載解耦

2 消費者按照自己的能力fetch數(shù)據(jù)

3 消費者可以自定義消費的數(shù)量

另外，由于broker采用了主題topic-->分區(qū)的思想，使得某個分區(qū)內(nèi)部的順序可以保證有序性，但是分區(qū)間的數(shù)據(jù)不保證有序性。這樣，消費者可以以分區(qū)為單位，自定義讀取的位置——offset。

Kafka采用zookeeper作為管理，記錄了producer到broker的信息，以及consumer與broker中partition的對應(yīng)關(guān)系。因此，生產(chǎn)者可以直接把數(shù)據(jù)傳遞給broker，broker通過zookeeper進行l(wèi)eader-->followers的選舉管理;消費者通過zookeeper保存讀取的位置offset以及讀取的topic的partition分區(qū)信息。

由于上面的架構(gòu)設(shè)計，使得生產(chǎn)者與broker相連;消費者與zookeeper相連。有了這樣的對應(yīng)關(guān)系，就容易部署logstash-->kafka-->logstash的方案了。

接下來，按照下面的步驟就可以實現(xiàn)logstash與kafka的對接了。

6.2. 啟動kafka

啟動zookeeper：

$zookeeper/bin/zkServer.sh start

啟動kafka：

$kafka/bin/kafka-server-start.sh $kafka/config/server.properties &

6.3. 創(chuàng)建主題

創(chuàng)建主題:

$kafka/bin/kafka-topics.sh --zookeeper 127.0.0.1:2181 --create --topic hello --replication-factor 1 --partitions 1

查看主題:

$kafka/bin/kafka-topics.sh --zookeeper 127.0.0.1:2181 --describe

6.4. 測試環(huán)境

執(zhí)行生產(chǎn)者腳本:

$kafka/bin/kafka-console-producer.sh --broker-list 10.0.67.101:9092 --topic hello

執(zhí)行消費者腳本，查看是否寫入:

$kafka/bin/kafka-console-consumer.sh --zookeeper 127.0.0.1:2181 --from-beginning --topic hello

6.5. 向kafka中輸出數(shù)據(jù)

input{

stdin{}

}

output{

kafka{

topic_id => "hello"

bootstrap_servers => "192.168.0.4:9092,172.16.0.12:9092"

# kafka的地址

batch_size => 5

codec => plain {

format => "%{message}"

charset => "UTF-8"

}

stdout{

codec => rubydebug

}

6.6. 從kafka中讀取數(shù)據(jù)

logstash配置文件:

input{

kafka {

codec => "plain"

group_id => "logstash1"

auto_offset_reset => "smallest"

reset_beginning => true

topic_id => "hello"

zk_connect => "192.168.0.5:2181"

}

output{

stdout{

codec => rubydebug

}

7. Filter

7.1. 過濾插件grok組件

#日志

55.3.244.1 GET /index.html 15824 0.043

bin/logstash -e '

input { stdin {} }

filter {

grok {

match => { "message" => "%{IP:client} %{WORD:method} %{URIPATHPARAM:request} %{NUMBER:bytes} %{NUMBER:duration}" }

}

output { stdout {codec => rubydebug} }'

7.2. 分割插件split

filter {

mutate {

split => { "message" => " " }

add_field => {

"event_type" => "%{message[3]}"

"current_map" => "%{message[4]}"

"current_X" => "%{message[5]}"

"current_y" => "%{message[6]}"

"user" => "%{message[7]}"

"item" => "%{message[8]}"

"item_id" => "%{message[9]}"

"current_time" => "%{message[12]}"

}

remove_field => [ "message" ]

}

三、 ElasticSearch索引服務(wù)安裝和使用

1. 簡介

ElasticSearch是一個基于Lucene的搜索服務(wù)器。它提供了一個分布式多用戶能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java開發(fā)的，并作為Apache許可條款下的開放源碼發(fā)布，是當(dāng)前流行的企業(yè)級搜索引擎。設(shè)計用于云計算中，能夠達到實時搜索，穩(wěn)定，可靠，快速，安裝使用方便。

我們建立一個網(wǎng)站或應(yīng)用程序，并要添加搜索功能，令我們受打擊的是：搜索工作是很難的。我們希望我們的搜索解決方案要快，我們希望有一個零配置和一個完全免費的搜索模式，我們希望能夠簡單地使用JSON通過HTTP的索引數(shù)據(jù)，我們希望我們的搜索服務(wù)器始終可用，我們希望能夠一臺開始并擴展到數(shù)百，我們要實時搜索，我們要簡單的多租戶，我們希望建立一個云的解決方案。Elasticsearch旨在解決所有這些問題和更多的問題。

2. ES概念

cluster

代表一個集群，集群中有多個節(jié)點，其中有一個為主節(jié)點，這個主節(jié)點是可以通過選舉產(chǎn)生的，主從節(jié)點是對于集群內(nèi)部來說的。es的一個概念就是去中心化，字面上理解就是無中心節(jié)點，這是對于集群外部來說的，因為從外部來看es集群，在邏輯上是個整體，你與任何一個節(jié)點的通信和與整個es集群通信是等價的。

shards

代表索引分片，es可以把一個完整的索引分成多個分片，這樣的好處是可以把一個大的索引拆分成多個，分布到不同的節(jié)點上。構(gòu)成分布式搜索。分片的數(shù)量只能在索引創(chuàng)建前指定，并且索引創(chuàng)建后不能更改。

replicas

代表索引副本，es可以設(shè)置多個索引的副本，副本的作用一是提高系統(tǒng)的容錯性，當(dāng)某個節(jié)點某個分片損壞或丟失時可以從副本中恢復(fù)。二是提高es的查詢效率，es會自動對搜索請求進行負(fù)載均衡。

recovery

代表數(shù)據(jù)恢復(fù)或叫數(shù)據(jù)重新分布，es在有節(jié)點加入或退出時會根據(jù)機器的負(fù)載對索引分片進行重新分配，掛掉的節(jié)點重新啟動時也會進行數(shù)據(jù)恢復(fù)。

river

代表es的一個數(shù)據(jù)源，也是其它存儲方式(如：數(shù)據(jù)庫)同步數(shù)據(jù)到es的一個方法。它是以插件方式存在的一個es服務(wù)，通過讀取river中的數(shù)據(jù)并把它索引到es中，官方的river有couchDB的，RabbitMQ的，Twitter的，Wikipedia的。

gateway

代表es索引快照的存儲方式，es默認(rèn)是先把索引存放到內(nèi)存中，當(dāng)內(nèi)存滿了時再持久化到本地硬盤。gateway對索引快照進行存儲，當(dāng)這個es集群關(guān)閉再重新啟動時就會從gateway中讀取索引備份數(shù)據(jù)。es支持多種類型的gateway，有本地文件系統(tǒng)(默認(rèn))，分布式文件系統(tǒng)，Hadoop的HDFS和amazon的s3云存儲服務(wù)。

discovery.zen

代表es的自動發(fā)現(xiàn)節(jié)點機制，es是一個基于p2p的系統(tǒng)，它先通過廣播尋找存在的節(jié)點，再通過多播協(xié)議來進行節(jié)點之間的通信，同時也支持點對點的交互。

Transport

代表es內(nèi)部節(jié)點或集群與客戶端的交互方式，默認(rèn)內(nèi)部是使用tcp協(xié)議進行交互，同時它支持http協(xié)議(json格式)、thrift、servlet、memcached、zeroMQ等的傳輸協(xié)議(通過插件方式集成)。

3. 安裝

1、創(chuàng)建用戶

es啟動時需要使用非root用戶，所以創(chuàng)建一個鈹銅用戶

2、安裝jdk(jdk要求1.8.20或1.7.55以上)

3、上傳es安裝包

4、 tar -zxvf elasticsearch-2.3.1.tar.gz -C /bigdata/

5、修改配置

vi /bigdata/elasticsearch-2.3.1/config/elasticsearch.yml

#集群名稱，通過組播的方式通信，通過名稱判斷屬于哪個集群

cluster.name: bigdata

#節(jié)點名稱，要唯一

node.name: es-1

#數(shù)據(jù)存放位置

path.data: /data/es/data

#日志存放位置

path.logs: /data/es/logs

#es綁定的ip地址

network.host: 172.16.0.14

#初始化時可進行選舉的節(jié)點

discovery.zen.ping.unicast.hosts: ["node-4.itcast.cn", "node-5.itcast.cn", "node-6.itcast.cn"]

6、使用scp拷貝到其他節(jié)點

scp -r elasticsearch-2.3.1/ node-5.itcast.cn:$PWD

scp -r elasticsearch-2.3.1/ node-6.itcast.cn:$PWD

7、在其他節(jié)點上修改es配置，需要修改的有node.name和network.host

8、啟動es(/bigdata/elasticsearch-2.3.1/bin/elasticsearch -h查看幫助文檔)

/bigdata/elasticsearch-2.3.1/bin/elasticsearch –d

9、用瀏覽器訪問es所在機器的9200端口

http://172.16.0.14:9200/

{

"name" : "es-1",

"cluster_name" : "bigdata",

"version" : {

"number" : "2.3.1",

"build_hash" : "bd980929010aef404e7cb0843e61d0665269fc39",

"build_timestamp" : "2016-04-04T12:25:05Z",

"build_snapshot" : false,

"lucene_version" : "5.5.0"

"tagline" : "You Know, for Search"

}

kill `ps -ef | grep Elasticsearch | grep -v grep | awk '{print $2}'`

4. es安裝插件下載es插件

/bigdata/elasticsearch-2.3.1/bin/plugin install mobz/elasticsearch-head

#本地方式安裝head插件

./plugin install file:///home/bigdata/elasticsearch-head-master.zip

#訪問head管理頁面

http://172.16.0.14:9200/_plugin/head

5. es的RESTful接口操作

RESTful接口URL的格式：

http://localhost:9200///[]

其中index、type是必須提供的。

id是可選的，不提供es會自動生成。

index、type將信息進行分層，利于管理。

index可以理解為數(shù)據(jù)庫;type理解為數(shù)據(jù)表;id相當(dāng)于數(shù)據(jù)庫表中記錄的主鍵，是唯一的。

#向store索引中添加一些書籍

curl -XPUT 'http://172.16.0.14:9200/store/books/1' -d '{

"title": "Elasticsearch: The Definitive Guide",

"name" : {

"first" : "Zachary",

"last" : "Tong"

"publish_date":"2015-02-06",

"price":"49.99"

#通過瀏覽器查詢

http://172.16.0.14:9200/store/books/1

#在linux中通過curl的方式查詢

curl -XGET 'http://172.16.0.14:9200/store/books/1'

#在添加一個書的信息

curl -XPUT 'http://172.16.0.14:9200/store/books/2' -d '{

"title": "Elasticsearch Blueprints",

"name" : {

"first" : "Vineeth",

"last" : "Mohan"

"publish_date":"2015-06-06",

"price":"35.99"

# 通過ID獲得文檔信息

curl -XGET 'http://172.16.0.14:9200/bookstore/books/1'

#在瀏覽器中查看

http://172.16.0.14:9200/bookstore/books/1

# 通過_source獲取指定的字段

curl -XGET 'http://172.16.0.14:9200/store/books/1?_source=title'

curl -XGET 'http://172.16.0.14:9200/store/books/1?_source=title,price'

curl -XGET 'http://172.16.0.14:9200/store/books/1?_source'

#可以通過覆蓋的方式更新

curl -XPUT 'http://172.16.0.14:9200/store/books/1' -d '{

"title": "Elasticsearch: The Definitive Guide",

"name" : {

"first" : "Zachary",

"last" : "Tong"

"publish_date":"2016-02-06",

"price":"99.99"

# 或者通過 _update API的方式單獨更新你想要更新的

curl -XPOST 'http://172.16.0.14:9200/store/books/1/_update' -d '{

"doc": {

"price" : 88.88

}

curl -XGET 'http://172.16.0.14:9200/store/books/1'

#刪除一個文檔

curl -XDELETE 'http://172.16.0.14:9200/store/books/1'

# 最簡單filter查詢

# SELECT * FROM books WHERE price = 35.99

# filtered 查詢價格是35.99的

curl -XGET 'http://172.16.0.14:9200/store/books/_search' -d '{

"query" : {

"filtered" : {

"query" : {

"match_all" : {}

"filter" : {

"term" : {

"price" : 35.99

}

#指定多個值

curl -XGET 'http://172.16.0.14:9200/store/books/_search' -d '{

"query" : {

"filtered" : {

"filter" : {

"terms" : {

"price" : [35.99, 88.88]

}

# SELECT * FROM books WHERE publish_date = "2015-02-06"

curl -XGET 'http://172.16.0.14:9200/store/books/_search' -d '{

"query" : {

"filtered" : {

"filter" : {

"term" : {

"publish_date" : "2015-02-06"

}

# bool過濾查詢，可以做組合過濾查詢

# SELECT * FROM books WHERE (price = 35.99 OR price = 99.99) AND (publish_date != "2016-02-06")

# 類似的，Elasticsearch也有 and, or, not這樣的組合條件的查詢方式

# 格式如下：

# {

# "bool" : {

# "must" : [],

# "should" : [],

# "must_not" : [],

# }

# must: 條件必須滿足，相當(dāng)于 and

# should: 條件可以滿足也可以不滿足，相當(dāng)于 or

# must_not: 條件不需要滿足，相當(dāng)于 not

curl -XGET 'http://172.16.0.14:9200/bookstore/books/_search' -d '{

"query" : {

"filtered" : {

"filter" : {

"bool" : {

"should" : [

{ "term" : {"price" : 35.99}},

{ "term" : {"price" : 99.99}}

"must_not" : {

"term" : {"publish_date" : "2016-02-06"}

}

# 嵌套查詢

# SELECT * FROM books WHERE price = 35.99 OR ( publish_date = "2016-02-06" AND price = 99.99 )

curl -XGET 'http://172.16.0.14:9200/bookstore/books/_search' -d '{

"query" : {

"filtered" : {

"filter" : {

"bool" : {

"should" : [

{ "term" : {"price" : 35.99}},

{ "bool" : {

"must" : [

{"term" : {"publish_date" : "2016-02-06"}},

{"term" : {"price" : 99.99}}

]

}}

]

}

# range范圍過濾

# SELECT * FROM books WHERE price >= 20 AND price < 100

# gt : > 大于

# lt : < 小于

# gte : >= 大于等于

# lte : <= 小于等于

curl -XGET 'http://172.16.0.14:9200/store/books/_search' -d '{

"query" : {

"filtered" : {

"filter" : {

"range" : {

"price" : {

"gt" : 20.0,

"lt" : 100

}

# 另外一種 and， or， not查詢

# 沒有bool, 直接使用and , or , not

# 注意: 不帶bool的這種查詢不能利用緩存

# 查詢價格既是35.99，publish_date又為"2015-02-06"的結(jié)果

curl -XGET 'http://172.16.0.14:9200/bookstore/books/_search' -d '{

"query": {

"filtered": {

"filter": {

"and": [

{

"term": {

"price":59.99

}

{

"term": {

"publish_date":"2015-02-06"

}

]

"query": {

"match_all": {}

}

6. Logstash讀取file寫入es

input {

file {

path => "/var/nginx_logs/*.log"

codec => "json"

discover_interval => 5

start_position => "beginning"

}

output {

elasticsearch {

index => "flow-%{+YYYY.MM.dd}"

hosts => ["172.16.0.14:9200", "172.16.0.15:9200", "172.16.0.16:9200"]

}

7. Logstash+kafka+es

input {

kafka {

type => "accesslogs"

codec => "plain"

auto_offset_reset => "smallest"

group_id => "elas1"

topic_id => "accesslogs"

zk_connect => "172.16.0.11:2181,172.16.0.12:2181,172.16.0.13:2181"

}

kafka {

type => "gamelogs"

auto_offset_reset => "smallest"

codec => "plain"

group_id => "elas2"

topic_id => "gamelogs"

zk_connect => "172.16.0.11:2181,172.16.0.12:2181,172.16.0.13:2181"

}

filter {

if [type] == "accesslogs" {

json {

source => "message"

remove_field => [ "message" ]

target => "access"

}

if [type] == "gamelogs" {

mutate {

split => { "message" => " " }

add_field => {

"event_type" => "%{message[3]}"

"current_map" => "%{message[4]}"

"current_X" => "%{message[5]}"

"current_y" => "%{message[6]}"

"user" => "%{message[7]}"

"item" => "%{message[8]}"

"item_id" => "%{message[9]}"

"current_time" => "%{message[12]}"

}

remove_field => [ "message" ]

}

output {

if [type] == "accesslogs" {

elasticsearch {

index => "accesslogs"

codec => "json"

hosts => ["172.16.0.14:9200", "172.16.0.15:9200", "172.16.0.16:9200"]

}

if [type] == "gamelogs" {

elasticsearch {

index => "gamelogs"

codec => plain {

charset => "UTF-16BE"

}

hosts => ["172.16.0.14:9200", "172.16.0.15:9200", "172.16.0.16:9200"]

}

四、 Kibana報表工具的安裝和使用

1. 簡介

Logstash 早期曾經(jīng)自帶了一個特別簡單的 logstash-web 用來查看 ES 中的數(shù)據(jù)。其功能太過簡單，于是 Rashid Khan 用 PHP 寫了一個更好用的 web，取名叫 Kibana。這個 PHP 版本的 Kibana 發(fā)布時間是 2011 年 12 月 11 日。

Kibana 迅速流行起來，不久的 2012 年 8 月 19 日，Rashid Khan 用 Ruby 重寫了 Kibana，也被叫做 Kibana2。因為 Logstash 也是用 Ruby 寫的，這樣 Kibana 就可以替代原先那個簡陋的 logstash-web 頁面了。

目前我們看到的 angularjs 版本 kibana 其實原名叫 elasticsearch-dashboard，但跟 Kibana2 作者是同一個人，換句話說，kibana 比 logstash 還早就進了 elasticsearch 名下。這個項目改名 Kibana 是在 2014 年 2 月，也被叫做 Kibana3。全新的設(shè)計一下子風(fēng)靡 DevOps 界。隨后其他社區(qū)紛紛借鑒，Graphite 目前最流行的 Grafana 界面就是由此而來，至今代碼中還留存有十余處 kbn 字樣。

2014 年 4 月，Kibana3 停止開發(fā)，ES 公司集中人力開始 Kibana4 的重構(gòu)，在 2015 年初發(fā)布了使用 JRuby 做后端的 beta 版后，于 3 月正式推出使用 node.js 做后端的正式版。由于設(shè)計思路上的差別，一些 K3 適宜的場景并不在 K4 考慮范圍內(nèi)，所以，至今 K3 和 K4 并存使用。

2. 安裝

解壓后，修改kibanna.yml，添加elasticsearch.url: "http://172.16.0.14:9200"信息，然后啟動。

3. 導(dǎo)入數(shù)據(jù)

我們將使用莎士比亞全集作為我們的示例數(shù)據(jù)。要更好的使用 Kibana，你需要為自己的新索引應(yīng)用一個映射集(mapping)。我們用下面這個映射集創(chuàng)建"莎士比亞全集"索引。實際數(shù)據(jù)的字段比這要多，但是我們只需要指定下面這些字段的映射就可以了。注意到我們設(shè)置了對 speaker 和 play_name 不分析。原因會在稍后講明。

在終端運行下面命令：

curl -XPUT http://localhost:9200/shakespeare -d '

{

"mappings" : {

"_default_" : {

"properties" : {

"speaker" : {"type": "string", "index" : "not_analyzed" },

"play_name" : {"type": "string", "index" : "not_analyzed" },

"line_id" : { "type" : "integer" },

"speech_number" : { "type" : "integer" }

}

我們這就創(chuàng)建好了索引?，F(xiàn)在需要做的時導(dǎo)入數(shù)據(jù)。莎士比亞全集的內(nèi)容我們已經(jīng)整理成了 elasticsearch 批量導(dǎo)入所需要的格式，你可以通過shakeseare.json下載。