阿波羅百嘉面向衆多用戶提供個性化服務,因此需要通過大(dà)數據技術對海量客戶數據進行篩選。由于美國HumanLongevitylnc.全面使用亞馬遜雲科技做完其雲供應商(shāng),爲此,阿波羅百嘉與華訊網絡合作在亞馬遜雲科技中(zhōng)國區構建LandingZone以保持和美國HLI在亞馬遜雲科技上無縫對接。同時借助亞馬遜雲科技的EMR大(dà)數據工(gōng)具來實現更精準更高效的服務。EMR可以與阿波羅百嘉的技術棧一(yī)緻,便于對接各項應用,且能達到成本優化、安全性提升、運維和開(kāi)發效率改進的效果。尤其是借助亞馬遜雲科技的生(shēng)态,阿波羅百嘉基礎上獲得更先進、豐富、深厚的數據利用能力。
阿波羅百嘉作爲HLI全球高端醫療科技資(zī)源的入口,積累了海量的客戶數據。爲了提供創新的個性化服務,阿波羅百嘉需要在構建雲上基礎架構的同時構建大(dà)數據分(fēn)析平台的爲這些服務提供數據平台,并在此基礎上實現用戶畫像、行爲分(fēn)析等目的。
阿波羅百嘉當前的系統部署存在以下(xià)缺陷:
* 數據存儲和處理的安全性有待提升。
* 缺乏易用的賬單分(fēn)析和成本優化工(gōng)具。
* 運維複雜(zá)度高,亟需借助更全面的運維工(gōng)具提升運維效率和質量。
* 架構先進性有待提高,從而實現數據分(fēn)析軟件的容器化和微服務化需求,提升各類上層應用的交付敏捷性。
* 亞馬遜雲科技中(zhōng)國區沒有codepipeline,無法沿用HLI的CI/CD實現方式。
上述缺陷目前已經對阿波羅百嘉的業務發展産生(shēng)了限制,亟待在大(dà)數據環境下(xià)得以解決。
亞馬遜雲科技作爲HLI長期的公有雲提供方,爲HLI提供可靠、先進的雲服務,一(yī)直受到HLI的信賴。随着亞馬遜雲科技在中(zhōng)國區有越來越全面的服務落地,已經形成了規模性的技術生(shēng)态,做爲HLI的中(zhōng)國權利,阿波羅百嘉目前也正在将各項原先自管的以及托管在其它雲上的應用逐步向亞馬遜雲科技遷移,或直接在亞馬遜雲科技上構建雲原生(shēng)應用,以求與HLI全球的技術棧保持一(yī)緻,并借助亞馬遜雲科技的領先技術和服務保障,獲得更高的收益和提升潛力。
華訊網絡作爲亞馬遜雲科技高級咨詢、安全以及MSP認證合作夥伴,在本次項目前的一(yī)年多時間裏,已爲阿波羅百嘉提供了包括亞馬遜雲科技領域在内的IT咨詢規劃及定制化MSP服務,涵蓋了從基礎網絡到公有雲、開(kāi)源中(zhōng)間件、安全、容器、開(kāi)發技術棧等廣泛的技術領域。參與了十餘個實際業務項目上線的評審、架構設計、實施以及開(kāi)發工(gōng)作,爲十餘個運維優化需求提供了解決方案和開(kāi)發實現。
通過這些實際項目的參與,華訊網絡已深入了解阿波羅百嘉的IT運維體(tǐ)系和深層需求,在技術經驗實力、服務能力和項目管理能力等方面,華訊網絡的表現均取得了阿波羅百嘉的信任,這些都保障了此次阿波羅百嘉選擇華訊網絡合作Landing Zone以及大(dà)數據項目的順利成功。
作爲亞馬遜雲科技的良好實踐,以及和HLI原本的技術棧的順利銜接,阿波羅百嘉的亞馬遜雲科技方案以HLI美國區爲藍(lán)本,大(dà)數據以EMR和S3爲核心進行打造,并按照客戶所需的功能、性能、安全、監控、運維需求進行設計和實施。項目從2021年4月份開(kāi)始,曆時4個月完成。
圖片展示了阿波羅百嘉項目的架構,批處理系統中(zhōng)用于基因分(fēn)析的數據以及醫療系統的RDS中(zhōng)的部分(fēn)數據将通過S3作爲EMR的數據源,由EMR負責處理,處理過程由EMR上運行的MapReduce針對批量數據進行分(fēn)析。數據分(fēn)析後在用戶系統的RDS以及醫療系統的RDS裏以結構化數據的形式進行展現,并通過API在統計報表裏進行展現。
爲保障和提高大(dà)數據運維效力,方案中(zhōng)采用Amazon CloudWatch、Amazon CloudTrail,Amazon SNS,協助監控,并部署由華訊網絡基于splunk開(kāi)發的MSP服務。此外(wài),爲迎合HLI已經成熟的的IaC技術積累,本方案可支持Terraform。
本方案采用Amazon EMR的目的在于:
* EMR可混合使用各類實例,并具有靈活的擴展性,可按需擴展或收縮集群,達到節省成本的目的。
* EMR本身包含了衆多Hadoop生(shēng)态下(xià)的最新版本的程序(Hive、Spark、Presto等),同時與衆多的亞馬遜雲科技原生(shēng)服務集成,不僅能快速的提供豐富、高效的數據分(fēn)析處理能力,也保障了集群的聯網、存儲、安全和運維質量。
* EMR可實現計算與存儲分(fēn)離(lí),充分(fēn)發揮出S3存儲的可靠性、安全性和成本優勢。
* EMR能夠監控集群中(zhōng)的節點,并自動終止和替換出現故障的實例。
* EMR及其相關的亞馬遜雲科技服務在全球各亞馬遜雲科技區域有一(yī)緻的技術棧。
方案采用的亞馬遜雲科技組件和服務,包含 EC2、EMR、S3、ELB、Athena、RDS(MySql)、batch、API Gateway、CloudWatch、CloudTrail、SNS、KMS、IAM
方案采用的第三方工(gōng)具,包含 Flume、Airflow、Kubernetes、Terraform、華訊MSP服務工(gōng)具(基于splunk開(kāi)發)
接入HLI的用戶數據;符合中(zhōng)國網絡信息安全法律法規對于用戶數據的安全要求。
實現與HLI系統的對接;數據分(fēn)析組件及功能與原環境保持兼容。
數據存儲處理能夠滿足商(shāng)業時效要求;簡化運維複雜(zá)度并提升運維效率和質量;同等處理效率的情況下(xià),采用亞馬遜雲科技數據湖方案相比原數據湖,節省成本超過20%。
符合HLI的企業安全合規要求;既符合亞馬遜雲科技安全實踐,同時融合HLI過往的技術經驗。