EN 加入我(wǒ)們

免費(fèi)下(xià)載

請填寫以下(xià)信息獲取免費(fèi)下(xià)載資(zī)源

  • 公司名稱

    *
  • 姓名

    *
  • 職務

    *
  • 電子郵箱

    *
  • 手機

    *
  • 驗證碼

    獲取驗證碼
  • 公司名稱

    *
  • 姓名

    *
  • 職務

    *
  • 電子郵箱

    *
  • 手機

    *
  • 驗證碼

    獲取驗證碼

留言反饋

請填寫以下(xià)信息反饋問題或建議

  • 公司名稱

    *
  • 姓名

    *
  • 職務

  • 電子郵箱

    *
  • 手機

    *
  • 反饋内容

  • 驗證碼

    獲取驗證碼

零售行業數據湖建設項目

深入挖掘數據湖價值,提供數據應用上一(yī)緻的技術棧

方案背景

某品牌積累了海量的客戶數據。爲了提供創新的個性化服務,需要以構建數據湖的形式爲這些服務提供統一(yī)的數據平台,并在此基礎上實現用戶畫像、行爲分(fēn)析等目的。

爲了深入的發揮出數據湖的豐富價值,同時确保該品牌在布局全球的數據應用上具有一(yī)緻的技術棧,品牌方與華訊網絡合作,在亞馬遜雲科技甯夏區構建數據湖,以替換其原先的數據湖方案。

品牌原有的數據湖方案存在以下(xià)缺陷:

* 計算實例類型單一(yī),不利于成本優化。

* 出于安全考慮,數據湖從global數據源獲取用戶數據受限。新數據湖需要提升數據存儲和處理的安全性,以獲得對接global數據的安全等級要求。

* 缺乏易用的賬單分(fēn)析和成本優化工(gōng)具。

* 運維複雜(zá)度高,亟需借助更全面的運維工(gōng)具提升運維效率和質量。

* 架構先進性有待提高,從而實現數據分(fēn)析軟件開(kāi)發/部署的容器化和微服務化需求,提升各類上層應用的交付敏捷性。

* 無法與品牌在全球的數據湖技術棧對齊。無法爲global數據開(kāi)發團隊提供标準、熟悉的環境。

* 大(dà)量使用通過開(kāi)源軟件實現的自建服務組件,造成了較高的架構複雜(zá)度和運維難度。希望在新數據湖中(zhōng)逐步使用雲原生(shēng)的托管服務來替代自建服務組件,以降低運維成本。

上述缺陷目前已經對該品牌的業務發展産生(shēng)了限制,亟待在新的數據湖環境下(xià)得以解決。此外(wài),品牌的技術團隊正在向DevOps和容器化方向做技術轉型,因此,希望在新數據湖的構建過程中(zhōng)充分(fēn)考慮DevOps和容器化建設。


方案描述

華訊網絡按照亞馬遜公有雲的架構設計原則,并考慮到和品牌方原本的技術棧的順利銜接,以EMR和S3爲核心打造此次亞馬遜雲上數據湖方案,并按照客戶所需的功能、性能、安全、監控、運維需求進行設計和實施。

架構中(zhōng),接入的數據主要來自于各大(dà)電商(shāng)平台,經由Internet到達一(yī)系列運行于EC2 Auto Scaling Group中(zhōng)的Apache開(kāi)源數據處理組件進行前期處理後,存放(fàng)到S3存儲桶中(zhōng)。此外(wài),新接入了一(yī)部分(fēn)來自于global數據湖的用戶數據,經由品牌方的内部網絡到達Glue進行處理後,也存放(fàng)于S3存儲桶中(zhōng)。該S3中(zhōng)的數據可由Glue進行一(yī)系列ETL處理。

保存後的各項原始數據由EMR負責處理,處理過程由EMR上運行的Spark和Flink針對批量數據和流數據分(fēn)别進行,處理結果将分(fēn)類存儲到S3、RDS和Redshift中(zhōng)。此外(wài),存儲桶中(zhōng)的數據可以使用Athena進行查詢。品牌方要求的用于調度Spark數據處理任務的Airflow系統也被部署到EC2中(zhōng)。同時,各部門的數據分(fēn)析師以及個性化應用的開(kāi)發人員(yuán)可按需(在其權限内)使用EMR獲得所需結果。

通過上述過程,用于個性化服務的基礎數據已準備就緒,接下(xià)來的數據分(fēn)析和可視化等工(gōng)作将由部署于EKS集群中(zhōng)的tableau和其他定制開(kāi)發的BI應用完成,并通過API向數據湖外(wài)的其他系統開(kāi)放(fàng)。該部分(fēn)将結合EKS以容器化管理的方式實現。且構建成DevOps體(tǐ)系。

爲保障和提高數據湖的運維效力,方案中(zhōng)采用CloudWatch、CloudTrail、SNS協助監控,并部署由華訊網絡基于Splunk開(kāi)發的MSP服務,實現高質量的運維。采用KMS等方式管理密鑰以提供系統的安全保障。采用IAM、Kerberos等提供安全認證。此外(wài),爲迎合品牌方已經成熟的的IaC技術積累,本方案可支持Terraform。

客戶收益

完整保留原數據湖中(zhōng)的數據;數據湖分(fēn)析組件及功能與原數據湖環境保持兼容;能夠完整接收并實時處理來自各電商(shāng)渠道的PB級用戶數據;實現與Airflow系統的對接;接入品牌方的global用戶數據。

能夠支持雙十一(yī)等業務高峰産生(shēng)的大(dà)量用戶數據;數據存儲處理能夠滿足商(shāng)業時效要求;各數據湖組件能夠彈性适應業務波動的要求,降低數據存儲和處理的成本;簡化運維複雜(zá)度并提升運維效率和質量。

符合中(zhōng)國網絡信息安全法律法規對于用戶數據的安全要求;符合品牌方的企業安全合規要求;既符合亞馬遜雲科技的安全設計準則,同時融合品牌方過往的技術經驗。

同等處理效率的情況下(xià),采用Amazon數據湖方案相比原數據湖,節省成本超過20%;數據湖提供了豐富的數據處理和數據存儲組件,并提供容器環境,由此可滿足品牌方的各類個性化服務應用開(kāi)發需求;利用DevOps設計和EKS,可快速部署和調整整個數據湖環境,以及基于數據湖的業務系統。

立即獲得幫助

讓我(wǒ)們針對您的需求,爲您打造專屬解決方案

  • 公衆号

  • 服務号

  • 視頻(pín)号

我(wǒ)們随時準備爲您提供幫助

  • 咨詢熱線

    400-820-5-820