欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

談數(shù)據(jù)工程6-數(shù)據(jù)架構

2024-04-17

這個部分,我們將討論數(shù)據(jù)架構。


內(nèi)容:1. 數(shù)據(jù)架構2是什么?. Lambda vs Kappa 架構3. 實際項目


一 什麼是數(shù)據(jù)架構?


數(shù)據(jù)結(jié)構是信息系統(tǒng)的藍圖,服務于商品的業(yè)務需求,描述如何收集、存儲、轉(zhuǎn)換和分發(fā)數(shù)據(jù)。它由數(shù)據(jù)模型、治理策略、規(guī)則和標準組成,需要實施和遵循,從而構建一個強大而安全的信息系統(tǒng)。


資料結(jié)構必須滿足信息系統(tǒng)的業(yè)務和技術要求。


項目需求下列內(nèi)容可能包括:1. 減少數(shù)據(jù)交付延遲2. 根據(jù)需要自動擴展數(shù)據(jù)交付33. 增加不同類型數(shù)據(jù)的數(shù)據(jù)模型的靈活性4. 提高數(shù)據(jù)質(zhì)量和一致性5. 降低存儲成本和支持提高6. 提供可靠性和 GDPR 等待標準合規(guī)


支持業(yè)務的技術需求包含:


1. 最佳業(yè)務案例數(shù)據(jù)庫和攝入工具2. 數(shù)據(jù)倉庫解決方案3高效檢索和存儲優(yōu)化. 定義數(shù)據(jù)關聯(lián)和消費的轉(zhuǎn)換邏輯4. 設計分析推理平臺展示平臺 KPI5. 采用云服務進行分布式計算,確保6個不同團隊的最低成本和訪問限制. 為了遵守法律法規(guī),維護數(shù)據(jù)的完整性,制定安全管理和監(jiān)控系統(tǒng)。


下面是數(shù)據(jù)架構師職責簡述:



它是數(shù)據(jù)架構師數(shù)據(jù)工程師兩者的區(qū)別:


二 Lambda 與 Kappa 架構


Lamba 架構它被定義為具有即時和批處理能力的組合。它有 3 層:即時層,用于使用。 Storm 或 Flink 等待服務處理傳遞到流程;批處理層用于使用 Hadoop 或 Spark 等待服務批量處理歷史數(shù)據(jù);服務層,提供批量處理和實時組合視圖數(shù)據(jù)。例如,在電子商務業(yè)務中,客戶(批號)的消費歷史記錄需要了解預算和質(zhì)量限制,并且需要立即瀏覽數(shù)據(jù)以提出適當?shù)慕ㄗh。


Lambda 架構面臨的問題是,您需要將預處理和其他常見工作復制到即時層和批處理層,因此建議使用相同的服務進行這兩種提取,例如 Spark,這有助于完成這兩個操作。


Kappa 架構的介紹的目的是采用統(tǒng)一的方法來應對這個挑戰(zhàn),而且只有一個流層, Apache Kafka 等待服務處理所有操作。首先,它可以在消息傳輸引擎中實時動態(tài)存儲,并可以存儲在分析數(shù)據(jù)庫中進行批量檢索,或者通過服務層根據(jù)查詢類型提供與消息傳輸引擎的實時互動。


Kafka 它是一種快速、容錯、水平可擴展的服務,具有以下許多特定功能,因此主要用于實現(xiàn)。 Kappa 架構。


盡管 Lambda 維修和運營成本較高,但 Kappa 使系統(tǒng)更簡單。但是為了建立 Kappa 為了保證可靠性和準確性,需要不斷優(yōu)化結(jié)構。


所以,一般而言,當有大量或多個數(shù)據(jù)無法實時處理時,就會使用。 Lambda 在需要傳入的流數(shù)據(jù)的情況下, Kappa 當中等數(shù)據(jù)立即付諸行動時,會更傾向于 Kappa 結(jié)構。數(shù)據(jù)具有高度一致性,因此不需要過多的質(zhì)量校準或復雜性。


Kappa 一個實際的例子是存在的 Uber 與 Kafka 共同實現(xiàn):


三 實際項目 電動汽車基礎設施分析


它是一個已經(jīng)實現(xiàn)的具體項目及其數(shù)據(jù)架構:


問題闡述:對電動汽車充電基礎設施進行分析,以識別任何方法并提出改進建議。數(shù)據(jù)庫:Open Charge API數(shù)據(jù)編排:Airflow數(shù)據(jù)湖:AWS S3 存儲對數(shù)據(jù)結(jié)構的理解:AWS Glue Crawler and Data Catalog數(shù)據(jù)清理與預處理:AWS LambdaETL 以及探索工具:AWS Glue 和 Athena數(shù)據(jù)庫及儀表板:Snowflake數(shù)據(jù)安全:IAM


澄清:我僅在 AWS 和 Snowflake 免費套餐服務在中間使用。在我看來,當所有服務都在 AWS 里時,明白為什么要用。 Airflow 而不是 Glue ETL 也許令人費解——這只是成本因素。


我在這里免費試用,所以有一些限制,但是如果你比較舒服,適合你的用例,你可以用。 Glue Studio 進行 ETL 與倉庫連接!


我僅使用 Glue Crawler 和 Data Catalog 等 Glue 對數(shù)據(jù)進行服務探索,使用 Athena 運行 SQL 查詢確保有正確的結(jié)構。如您查看代碼庫,您可以找到和找到它。 Snowflake 連接是通過 SQL 查詢而不是 Glue。


Open Charge API


這個數(shù)據(jù)庫包含了各種有關電動汽車充電站的信息,你可以使用經(jīng)度和緯度來查詢這個區(qū)域的電動汽車充電站。


Airflow — ELT


用來安排數(shù)據(jù)管道,并根據(jù)不同區(qū)域定期攝取API數(shù)據(jù)。


AWS Glue


AWS Glue 用來理解數(shù)據(jù)架構,通過存儲元數(shù)據(jù)的爬網(wǎng)過程和數(shù)據(jù)目錄。也可以使用 通過Glue Glue Studio 進行相關的數(shù)據(jù)轉(zhuǎn)換,然后將其加載到其中 Snowflake 在數(shù)據(jù)庫中。也可以定義 Lambda 函數(shù)調(diào)用的 ETL 操作或者調(diào)度它。數(shù)據(jù)質(zhì)量檢查也可以在ETL操作中進行。


AWS Lambda


它用于清理和預處理原始數(shù)據(jù),并將中間結(jié)果存儲在清理后的另一個S3存儲桶中。每次將新數(shù)據(jù)加載到原始數(shù)據(jù)中。 S3 儲存桶內(nèi)時,都能觸發(fā)。


AWS Athena


可以用 Athena 執(zhí)行 SQL 查詢了解數(shù)據(jù),并將查詢記錄存儲在分析數(shù)據(jù)庫中,以便瀏覽數(shù)據(jù)庫。


Snowflake data warehouse


該分析存儲用于終端用戶(數(shù)據(jù)分析師),用于了解趨勢和方法,并構建儀表板向相關利益相關者展示。


AWS IAM


身份和訪問管理允許您設定不同的定義。 AWS 資源密鑰管理的作用和策略。您需要定義以上每一個。 AWS 資源角色可以相互交互。


總之,使用 Airflow 從 API 進行攝入,當 S3 當目標事件發(fā)生時,存儲桶會觸發(fā) Lambda,如果有可用的清潔對象,可以使用。 Snowflake 觸發(fā)載入。


儀表板在Snowflake中的


找出可用設備的總數(shù)。


選擇前10名ev_table 個“l(fā)ocationtitle”、“quantity”,其中“quantity” > 1 order by “quantity” desc;


2. 找出不同電流類型的功率分布特征


SELECT sum ("powerkw") as "total_power","currenttypeid" FROM ev_table where "currenttypeid" > 1 GROUP BY "currenttypeid" ORDER BY "currenttypeid" ;


找出電動汽車站的地理鄰近性


從ev_table中選擇“緯度”、“經(jīng)度” ;



找出不同等級充電能力之間的功率分布。


按下ev_table組中的“l(fā)evelid”挑選“l(fā)evelid”、sum(“powerkw”);


5. 根據(jù)充電能力等級了解位置分布。


按下ev_table組中的“l(fā)evelid"選擇記數(shù)(""locationtitle”)、“ levelid”


6. 找出功率最高的位置


選擇前10名ev_table 個 “l(fā)ocationtitle”、“powerkw”,其中“powerkw” > 0 order by “powerkw” desc;


本文來自微信微信官方賬號“數(shù)據(jù)驅(qū)動智能”(ID:Data作者:曉曉,36氪經(jīng)授權發(fā)布,_0101)。


本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com