弁言
風電企業(yè)生產數據有其自身的特點,重要是風機回傳的傳感器數據,其吻合典型機器大數據的特點,詳細而言:(1)體量大。假設每臺風機每秒回傳500個數據點,那么1臺風機1年產生的數據為60GB。按1萬臺風機估算,1年產生的數據若不壓縮也許900TB。針對風電企業(yè)PB級別的生產數據,必要低成本可擴展的大數據平臺架構來存儲數據。當數據賡續(xù)增多的時候,包括將來增長傳感器的屬性,可以通過增長節(jié)點和本地存儲實現水平擴展。(2)速率高。針對風機回傳的時間序列數據而言,每臺風機每秒回傳500個數據點,1萬臺風機向數據中間回傳的數據率為650萬點/秒。針對風電企業(yè)回傳數據的特點,假如把這些數據加載到關系數據庫,根據這一數據庫的產生速率,無論是批量導入照舊實時插入,遠超過商用的通用數據庫的加載速率。因此,必要定制數據存儲和查詢平臺,支撐每秒萬萬數據點的導入。(3)格式特定。首先,風電企業(yè)的重要動態(tài)數據為風機產生的時間序列數據。其次,因為風機型號和出場時間的差異,風電企業(yè)回傳的機器大數據格式多樣?;陲L電大數據的這些特點,加之對風電數據的實時分析、查詢和存儲區(qū)必要大量計算資源,為了填補物理設備的不足,建議采用云平臺架構。
本文細致介紹了基于云平臺的風電大數據體系搭建策略,通過分析風電企業(yè)數據資源特點(體量大、速率高、格式特定)制訂平臺架構和部署體例。平臺采用成熟的商業(yè)hadoop軟件加私有云的架構體例,包括:平臺基礎層、平臺服務層、平臺應用層,分別提供數據預處理、存儲、安全、共享等服務。通過云平臺可節(jié)省投資、實現快速部署,平臺安全穩(wěn)固不受物理設備存儲計算容量的限定,可實現計算資源的快速橫向擴展,為風電企業(yè)實現大數據平臺建設提供了新的思路與想法。
平臺技術架構
1.大數據云平臺技術架構
大數據的基礎設施采用云資源架構;大數據平臺重要基于hadoop技術提供大數據分析計算功能;大數據應用服務基于大數據云平臺搭建,同時又通過應用服務總線提供大數據應用服務。如圖1所示。
基礎云平臺,由假造化調度管理體系、服務器、存儲和網絡設備同一構成,對外提供計算、存儲、網絡等基礎資源功能。大數據平臺層,重要是實現PB級數據存取和快速計算分析功能,實現分布式的文件體系、實時數據庫,分布式數據庫等不同級別的存儲區(qū)域;同時實現流計算、內存計算、分布式并行計算等多種計算引擎,且集成通用的發(fā)掘算法和發(fā)掘工具,便于應用營業(yè)進行發(fā)掘分析處理。應用開發(fā)服務平臺基于J2EE技術路線,采用SOA、模塊化和構件化架構,平臺總體架構分為4層:模塊化引擎、基礎組件、核心組件、展示組件。
2.云支持平臺
整個云支持平臺體系結構如圖2所示。云平臺由一個運營管理平臺和一個或多個資源池體系組成。物理設備重要包括X86服務器、網絡設備、存儲設備,為IaaS服務提供最底層的物理資源。在假造化層是通過假造化軟件(如VMwareESXi、CitrixXenServer或KVM)對物理層的硬件設施進行假造化處理,形成Hypervisor假造層面的資源池體系。采用假造化軟件將物理設備資源形成一個或多個假造出來的資源池,提供計算能力、網絡功能和存儲能力。該資源池體系可提供用戶傳統(tǒng)使用基礎IT資源、計算能力、網絡功能和存儲能力。該資源池體系可根據必要動態(tài)改變資源分配的規(guī)模,快速適應不同應用的擴容需求,實現“彈性”資源的分配能力。
管理體系是通過云管理平臺來實現資源同一管理和營業(yè)同一管控的主動化體系。云管理平臺作為資源管理體系,重要是管理資源池體系及資源池體系中的各種資源的調度、分配和調整。