更新時間:2023-10-30 來源:黑馬程序員 瀏覽量:
(1)分布式的搜索引擎和數(shù)據(jù)分析引擎
搜索:百度,網(wǎng)站的站內(nèi)搜索,IT系統(tǒng)的檢索數(shù)據(jù)分析:電商網(wǎng)站,最近7天牙膏這種商品銷量排名前10的商家有哪些;新聞網(wǎng)站,最近1個月訪問量排名前3的新聞版塊是哪些分布式,搜索,數(shù)據(jù)分析
(2)全文檢索,結(jié)構(gòu)化檢索,數(shù)據(jù)分析
全文檢索:我想搜索商品名稱包含牙膏的商品,select * from products where product_name like "%牙膏%"結(jié)構(gòu)化檢索:我想搜索商品分類為日化用品的商品都有哪些,select * from products where category_id='日化用品'部分匹配、自動完成、搜索糾錯、搜索推薦數(shù)據(jù)分析:我們分析每一個商品分類下有多少個商品,select category_id,count(*) from products group by category_id
(3)對海量數(shù)據(jù)進行近實時的處理
分布式:ES自動可以將海量數(shù)據(jù)分散到多臺服務(wù)器上去存儲和檢索海量數(shù)據(jù)的處理:分布式以后,就可以采用大量的服務(wù)器去存儲和檢索數(shù)據(jù),自然而然就可以實現(xiàn)海量數(shù)據(jù)的。
處理了近實時:檢索個數(shù)據(jù)要花費1小時(這就不要近實時,離線批處理,batch-processing);在秒級別對數(shù)據(jù)進行搜索和分析跟分布式/海量數(shù)據(jù)相反的:lucene,單機應(yīng)用,只能在單臺服務(wù)器上使用,最多只能處理單臺服務(wù)器可以處理的數(shù)據(jù)量。
Elasticsearch 是通過 Lucene 的倒排索引技術(shù)實現(xiàn)比關(guān)系型數(shù)據(jù)庫更快的過濾。特別是它對多條件的過濾支持非常好,比如年齡在 18 和 30 之間,性別為女性這樣的組合查詢。