67194熟妇人妻欧美日韩,韩国三级做爰高潮hd电影,2021av天堂网手机版,99视频国产精品免费观看,四虎亚洲精品成人a在线观看

基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析應(yīng)用

   2024-06-03 5423
核心提示:本文將以 OSS 日志處理場景為例,演示使用 EMR Serverless Spark 產(chǎn)品快速搭建日志分析應(yīng)用。
 

背景

隨著互聯(lián)網(wǎng)服務(wù)的廣泛普及與技術(shù)應(yīng)用的深入發(fā)展,日志數(shù)據(jù)作為記錄系統(tǒng)活動、用戶行為和業(yè)務(wù)操作的寶貴資源,其價值愈發(fā)凸顯。然而,當前海量日志數(shù)據(jù)的產(chǎn)生速度已經(jīng)遠遠超出了傳統(tǒng)數(shù)據(jù)分析工具的處理能力,這不僅要求我們具備高效的數(shù)據(jù)收集和存儲機制,更呼喚著強大、靈活且易用的數(shù)據(jù)分析平臺的誕生。在此背景下,Apache Spark,這一專為大規(guī)模數(shù)據(jù)處理而設(shè)計的計算引擎,成為了構(gòu)建高性能日志分析應(yīng)用的理想選擇。

阿里云 EMR Serverless Spark 版是一款全托管、一站式的數(shù)據(jù)處理平臺,基于Spark Native Engine構(gòu)建,專為大規(guī)模數(shù)據(jù)處理和分析設(shè)計,提供彈性、高效的服務(wù),讓用戶無需關(guān)注基礎(chǔ)設(shè)施管理,100%兼容Spark,簡化從開發(fā)到運維的全鏈路工作流程。

本文將以 OSS 日志處理場景為例,演示使用 EMR Serverless Spark 產(chǎn)品快速搭建日志分析應(yīng)用。

OSS-HDFS 審計日志簡介

阿里云的 OSS-HDFS 服務(wù),是專為大數(shù)據(jù)處理和云原生數(shù)據(jù)湖存儲設(shè)計的產(chǎn)品。該服務(wù)由阿里云的JindoFS提供技術(shù)支持,旨在無縫橋接阿里云對象存儲(OSS)與 HDFS 生態(tài)系統(tǒng),為 Apache Hadoop、Hive、Spark、Flink 等大數(shù)據(jù)處理框架提供高性能、高兼容性的存儲解決方案。

在阿里云 OSS 控制臺創(chuàng)建一個新的 OSS Bucket 時可以選擇開通 HDFS 服務(wù),創(chuàng)建完成后新的 OSS Bucket 即可支持 HDFS 接口訪問:

HDFS審計日志(Audit Log)是Hadoop分布式文件系統(tǒng)(HDFS)的一個重要組成部分,它詳盡地記錄了所有用戶對 HDFS 執(zhí)行的操作信息。這些日志對于系統(tǒng)管理員監(jiān)控、安全審計以及故障排查至關(guān)重要。每當用戶通過 HDFS 的 NameNode 執(zhí)行操作(如讀取、寫入、刪除文件或目錄等),NameNode 就會生成一條審計日志記錄。類似于開源版 HDFS,OSS-HDFS 默認就支持 auditlog 日志,在根目錄下的 /.sysinfo/auditlog 目錄下保存了近一個月的審計日志,并且按照日期目錄進行切分。

審計日志條目通常包含一些關(guān)鍵信息,比如操作時間、操作人、操作成功與否、來源IP、操作命令、操作目標文件等。下面三條日志分別記錄了delete、getfileinfo和mkdir操作詳情:

1.jpg

EMR Serverless Spark 工作空間簡介

使用 EMR Serverless Spark 產(chǎn)品之前,需要了解工作空間相關(guān)的概念,工作空間是 EMR Serverless Spark 為業(yè)務(wù)開發(fā)劃分的基本單元,是任務(wù)、資源和權(quán)限的集合。

接下去就可以參考產(chǎn)品的快速入門文檔來體驗:

1. 阿里云賬號角色授權(quán):開通工作空間的前置操作

2. 創(chuàng)建Spark工作空間:需要提前開通 OSS 和 DLF 等阿里云服務(wù)

3. SQL任務(wù)快速入門:接下去的 EMR Serverless Spark 任務(wù)開發(fā)會使用 SQL 任務(wù)

EMR Serverless Spark 任務(wù)開發(fā)

下面我們來演示如何通過EMR Serverless Spark搭建一個日志分析應(yīng)用。日志分析的一個很常見的需求是分析前一天訪問 OSS-HDFS Bucket 的來源IP,比如希望找到有來自某些IP的異常突發(fā)流量,或者在事后調(diào)查敏感文件是否被異常IP所訪問。

因為SQL是在數(shù)據(jù)分析中最常用的工具,所以使用 Spark SQL 來分析OSS-HDFS的審計日志。前面我們已經(jīng)通過《SQL任務(wù)快速入門》對 SparkSQL 類的任務(wù)有了簡單的了解,這部分內(nèi)容會針對數(shù)據(jù)倉庫源數(shù)據(jù)層、明細層、匯總層分別創(chuàng)建一個 SQL 任務(wù)。

源數(shù)據(jù)層

首先是日志文件的來源,我們要建立一個源數(shù)據(jù)層(ODS)的表,因為審計日志已經(jīng)被歸檔到OSS-HDFS的系統(tǒng)目錄里,所以我們可以通過Spark SQL建一個CSV外表:

1. 表路徑指向系統(tǒng)目錄 oss://<BUCKET_NAME>.<REGION_ID>.oss-dls.aliyuncs.com/.sysinfo/auditlog/ (在操作的時候需要將 BUCKET_NAME 和 REGION_ID 替換為實際使用的 OSS Bucket 名稱和所在地域)

2. 日志條目中的不同字段用制表符(tab)分隔,所以指定 sep = '\t'

3. ${ds} 是 Serverless Spark開發(fā)和調(diào)度平臺使用的內(nèi)置變量,代表業(yè)務(wù)日期(T-1)。比如在2024年5月21日運行的SQL任務(wù),業(yè)務(wù)時間是指前一天,${ds}=2024-05-20(在這里無需手動替換 ds 值)

把這個SQL文件(s_oss_hdfs_audit_tmp.sql)保存后,點擊發(fā)布。

數(shù)倉明細層

其次,我們要基于這個ODS外表創(chuàng)建一張數(shù)據(jù)倉庫明細層(DWD)表,以Parquet格式存儲,并按天進行分區(qū)。我們需要對 ODS 表進行簡單的清晰和轉(zhuǎn)換,比如把access_time從字符串轉(zhuǎn)換timestamp成類型,將字段內(nèi)容 ip=172.16.0.99 轉(zhuǎn)換為 IP 地址 172.16.0.99 等。這個SQL里同樣使用了 ${ds} 內(nèi)置變量。

把這個SQL文件(dwd_oss_hdfs_audit_di.sql)保存后,點擊發(fā)布。

數(shù)倉匯總層

最后,我們對數(shù)倉明細層數(shù)據(jù)做一個簡單的分析,取出前一天請求量最大的20個IP地址,我們會創(chuàng)建一張 DWS 匯總表:

把這個SQL文件(dws_oss_hdfs_ip_ana.sql)保存后,點擊發(fā)布。

EMR Serverless Spark 任務(wù)編排

創(chuàng)建工作流

在前面的章節(jié)中,我們已經(jīng)分別在數(shù)據(jù)倉庫源數(shù)據(jù)層、明細層、匯總層各創(chuàng)建一個 SQL 任務(wù),這些任務(wù)都處于“已發(fā)布”狀態(tài)。接下去我們需要創(chuàng)建一個工作流把這三個SQL任務(wù)進行適當?shù)木幣?,并且讓工作流能在每天的固定時間進行調(diào)度。

在 Serverless Spark 工作空間的導航欄中找到“任務(wù)編排”鏈接,點擊“創(chuàng)建工作流”后進入新建工作流 oss_hdfs_auditlog 的配置界面。在這個界面里需要填寫工作流名稱和資源隊列,同時可以選擇調(diào)度類型是“調(diào)度器”,調(diào)度周期是每天的 00:05。

編輯節(jié)點

在編輯工作流的頁面,鼠標左鍵雙擊節(jié)點,或者單擊下方的添加節(jié)點,進入節(jié)點編輯頁面。我們需要按順序選擇s_oss_hdfs_audit_tmp、dwd_oss_hdfs_audit_di、dws_oss_hdfs_ip_ana節(jié)點,加入到工作流中。

同時也需要配置節(jié)點依賴關(guān)系,比如 dwd_oss_hdfs_audit_di 節(jié)點的上游節(jié)點是 s_oss_hdfs_audit_tmp,dws_oss_hdfs_ip_ana 節(jié)點的上游節(jié)點是 dwd_oss_hdfs_audit_di。

三個節(jié)點編輯完成之后,自動生成如下 DAG,完成工作流的編輯。 

發(fā)布工作流

在工作流編輯頁面右上角,點擊“發(fā)布工作流”,在輸入發(fā)布信息后點擊“確認”,完成工作流的發(fā)布。

發(fā)布工作流之后自動跳轉(zhuǎn)回到工作流列表,我們可以看到新創(chuàng)建的工作流。打開“調(diào)度狀態(tài)”開關(guān),之后工作流會根據(jù)調(diào)度器的設(shè)置進行按天調(diào)度。

點擊工作流名稱,進入工作流調(diào)度實例列表,在這里可以看到每次調(diào)度運行的成功或失敗的任務(wù)節(jié)點,也可以點擊右上角的“手動運行”按鈕進行一次手動調(diào)度。

在每天凌晨的定時調(diào)度完成之后或者一次手動調(diào)度成功之后,我們可以回到 SQL 任務(wù)開發(fā)界面,在編輯器中輸入如下 SQL 查詢語句,可以快速獲取到前一天請求 OSS-HDFS 數(shù)量最多的前 20 個 IP 地址:

6.jpg

總結(jié)

本文演示了使用 Serverless Spark 產(chǎn)品搭建一個日志分析應(yīng)用的全流程,包括數(shù)據(jù)開發(fā)和生產(chǎn)調(diào)度以及交互式查詢等場景。

EMR Serverless Spark 在 2024年5月正式開啟公測,在公測期間可以免費使用最高 100 CU 計算資源,歡迎試用。如果您在使用 EMR Serverless Spark 版的過程中遇到任何疑問,可釘釘掃描以下二維碼加入釘釘群(群號:58570004119)咨詢。

快速跳轉(zhuǎn)

1. EMR Serverless Spark 版官網(wǎng):https://www.aliyun.com/product/bigdata/serverlessspark

2. 產(chǎn)品控制臺:https://emr-next.console.aliyun.com/

3. 產(chǎn)品文檔:https://help.aliyun.com/zh/emr/emr-serverless-spark/

4. SQL 任務(wù)快速入門:https://help.aliyun.com/zh/emr/emr-serverless-spark/getting-started/get-started-with-sql-task-development

 

 

 
分享到: 0
收藏 0
 
更多>同類資訊
免責申明
推薦資訊
點擊排行
最新資訊更多>
最新供應(yīng)更多>
網(wǎng)站首頁  |  聯(lián)系方式  |  關(guān)于我們  |  問題解析  |  版權(quán)隱私  |  使用協(xié)議  |  網(wǎng)站地圖  |  排名推廣  |  廣告服務(wù)  |  積分換禮  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報  |  粵ICP備1207862號

中國智能化網(wǎng)(zgznh®)--引領(lǐng)工業(yè)智能化產(chǎn)業(yè)發(fā)展 共享智能化+優(yōu)質(zhì)平臺

版權(quán)所有:深圳市智控網(wǎng)絡(luò)有限公司 學術(shù)指導:深圳市智能化學會

粵ICP備12078626號

深公網(wǎng)安備案證字第 4403101901094 號 | 粵公網(wǎng)安備 44030702001206號