作為數(shù)據(jù)倉庫和ETL的開發(fā)者,如果只想把時(shí)間用在創(chuàng)建BI解決方案上,那么任何用于軟件安裝和配置的時(shí)間都是一種浪費(fèi)。例如,為了創(chuàng)建數(shù)據(jù)庫連接,很多與Kettle類似的工具都要求用戶手工輸入數(shù)據(jù)庫驅(qū)動(dòng)的類名...查看全文>>
我們都知道,Python函數(shù)是支持嵌套的。如果在一個(gè)內(nèi)部函數(shù)中對(duì)外部函數(shù)作用域(非全局作用域)的變量進(jìn)行引用,那么內(nèi)部函數(shù)就會(huì)被稱為閉包...查看全文>>
簡(jiǎn)單來說,匿名函數(shù)就是沒有名稱的函數(shù),也就是不再使用def定義的函數(shù)。如果要聲明匿名函數(shù),則需要使用lambda關(guān)鍵字,匿名函數(shù)的聲明格式如下查看全文>>
在 Python 中,list是動(dòng)態(tài)數(shù)組。所以在Python中列表和鏈表的內(nèi)存使用非常相似。鏈表和數(shù)組在以下的操作中有本質(zhì)區(qū)別:查看全文>>
數(shù)據(jù)清洗的基本流程一共分為5個(gè)步驟,分別是數(shù)據(jù)分析、定義數(shù)據(jù)清洗的策略和規(guī)則、搜尋并確定錯(cuò)誤實(shí)例、糾正發(fā)現(xiàn)的錯(cuò)誤以及干凈數(shù)據(jù)回流。下面通過一張圖描述數(shù)據(jù)清洗的基本流程,具體如圖所示。查看全文>>
由于缺乏或者不準(zhǔn)確的數(shù)據(jù)統(tǒng)計(jì)信息(元數(shù)據(jù))和對(duì)成本的錯(cuò)誤估算(執(zhí)行計(jì)劃調(diào)度)導(dǎo)致生成的初始執(zhí)行計(jì)劃不理想在Spark3.x版本提供Adaptive Query Execution自適應(yīng)查詢技術(shù)通過在”運(yùn)行時(shí)”對(duì)查詢執(zhí)行計(jì)劃進(jìn)行優(yōu)化, 允許Planner在運(yùn)行時(shí)執(zhí)行可選計(jì)劃,這些可選計(jì)劃將會(huì)基于運(yùn)行時(shí)數(shù)據(jù)統(tǒng)計(jì)進(jìn)行動(dòng)態(tài)優(yōu)化, 從而提高性能。查看全文>>