百度云

概述

數據倉庫為企業提供了分析和報表功能,是商務智能的中流砥柱。不過,隨著大數據時代的來臨,網站日志、用戶行為數據、社交媒體、傳感器等等在云端產生了海量非結構化數據,為了分析海量數據,與云端數據交互獲取更強的競爭力,給傳統數據倉庫帶來了巨大挑戰。

伴隨著Hadoop/Spark大數據平臺的成熟,越來越多的企業開始采用Hadoop/Spark作為企業數據中心來彌補傳統數據倉庫,對弱結構化或者非結構化數據進行分析,或者作為ETL功能為數據倉庫提供結構化數據。

為了幫助企業在大數據時代更好地獲得競爭優勢,百度智能云提供了云端的數據倉儲解決方案,介紹如何在數據倉庫和Hadoop/Spark大數據平臺中選型,以及如何運用云計算帶來的收益,為企業搭建現代數據倉庫平臺提供指南。

背景

數據分析是通過收集原始數據、處理后得到有用信息、然后進行分析以獲取洞察力的一個過程,最終目的是輔助決策。數據分析的例子有很多,比如網站通過分析用戶的行為數據來了解客戶的傾向以推薦產品、供電局通過分析電表的數據來提高能源效率等。

為了更好地支持數據分析,數據技術慢慢演化成面向日常事務處理的OLTP和針對統計分析決策的OLAP。

MPP架構的數據倉庫是典型的OLAP應用,通過ETL過程把數據倉儲在統一的平臺,并提供交互式查詢幫助企業做出決策,是商務智能(Business Intelligence)的中流砥柱。

隨著Hadoop和Spark技術的崛起,普通技術人員都能夠通過廉價硬件組建集群,存放大量原始數據并通過大規模并行框架處理數據,并且在上層慢慢演化出Hive、Spark SQL這樣的OLAP功能,也能完成數據倉儲的任務。

那么問題來了:

數據倉庫和Hadoop/Spark大數據平臺如何選擇?

云端的數據倉庫服務和Hadoop/Spark托管服務有什么好處?

方案

現代數據倉庫

關系數據倉庫托管服務PaloHadoop/Spark托管服務BMR的有機組合才是數據倉儲最佳解決方案:

在線報表
數字面板
大數據平臺BMR
關系數據倉庫
Palo
Spark
MapReduce
Kafka
Hive
Pig
Mahout
Zeppelin
Hue
HBase
傳感器
輿情
聲音
日志
圖片
視頻
視頻
ERP
CRM
HR
最佳解決方案 大數據平臺BMR 關系數據倉庫 Palo

其中:

結構化、弱結構化、非結構化存儲的原始數據可以復制到BMR集群中。

結構化數據通過ETL載入Palo中。

通過Hive或者Spark SQL交互式查詢BMR中的數據,用來做原型測試或者即席查詢。這些組件支持運行時定義表模式(Schema on Read),方便處理弱結構化數據。非結構化數據可以通過MapReduce或Spark加工成結構化數據。

變形完成的結構化數據載入Palo,作為企業唯一真實版本(Single Version of the Truth),幫助企業部門之間協作。

通過SQL與Palo通訊,使用BI工具進行即席查詢或者交互式分析,或者產生數字面板提供自動報表,以獲取洞察力。

大數據時代的數據倉儲,應該能夠同時處理關系型數據和非關系型數據,小數據與大數據,一個都不能少,而BMR和Palo正是百度智能云大數據平臺給出的答案。

傳統的數據倉庫或者Hadoop集群建設,需要經過采購硬件、部署軟件、開發運維等步驟,周期冗長,而且無法隨著業務動態伸縮。相比之下,BMR和Palo都是云端的全托管服務,用戶在幾分鐘內便可以創建集群,而無須考慮運維,節省IT人員的成本。同時,托管服務都支持動態伸縮集群,可根據業務大小調節集群,按使用量付費。總之,IT支出下降,凸顯云端托管服務的優勢。

無縫集成BI工具

秉承開源開放的原則,BMR、Palo可以輕松與業界著名的BI工具的無縫集成,使得自助式分析與報表變得異常簡單。

數據服務

百度智能云對數據倉儲提供了完整的收集、存儲、倉儲、應用四個步驟的服務:

收集:方便快捷地把各種類型的數據收集到云端。除了公網上傳數據,海量數據可以使用硬盤快遞服務,此外還有日志服務和物聯網IoT服務可以選擇。

存儲:把不同類型的數據存儲到相應的服務以便進一步處理。比如對象存儲BOS是支持HDFS接口的文件存儲服務;RDS支持MySQL和SQL Server的關系型數據庫服務。

倉儲:把數據清理、變形、優化以后存儲關系型數據倉庫Palo,或者以更直接形式放在以Hadoop/Spark為平臺的數據湖上,以便高效地進行數據分析。

應用:使用商務智能工具如Qlik、Tableau等與BMR或者Palo交互,交互式查詢、產生報表、或者生成數字面板供企業內分享。

參考架構如下:

報表
數字面板
大數據平臺BMR
關系數據倉庫
Palo
Spark
MapReduce
Kafka
Hive
Pig
Mahout
Zeppelin
Hue
HBase
對象存儲BOS
關系數據庫RDS
硬盤快遞
日志服務
網絡傳輸
物聯網服務IOT
百度消息服務
參考架構 對象存儲BOS 關系數據庫RDS 日志服務 物聯網服務IOT 百度消息服務 大數據平臺BMR 關系數據倉庫 Palo

選擇我們

我們提供業界領先的數據倉儲解決方案:

依托百度技術:百度搜索收錄全世界超過萬億網頁、承載中國網民每天幾十億次的請求,大數據技術支撐20多個用戶過億產品以及百萬企業客戶。2013年百度建成全球最大Hadoop集群,2014年百度大數據處理能力BaiduSort獲得國際排序大賽冠軍。

全托管云服務:托管服務讓用戶聚焦業務而不是修復缺陷和運營,而按需購買、快速發布、彈性擴容、高可用等特性幫助企業大大降低IT成本。此外,大數據產品在百度內部外部久經考驗,適合企業在生產環境部署。

開源開放:百度智能云提供增強的開源產品托管服務(如BMR)或者接口完全兼容產品(如Palo),方便互聯網公司和傳統企業平滑

點擊百度MapReduce以及百度數據倉庫Palo開始使用。

咨詢
QQ
客服
7x24小時客服電話

客服電話 400-678-0612
微信

關注官方微信
領取千元優惠券

地址