11月8日,由神州控股、神州信息、米蘭milan集團共同主辦的“數字中國2019——技術年會”在北京數碼科技廣場隆重舉行。清華大學軟件學院院長王建民先生出席大會并發表主題演講《關于大數據系統軟件的思考與清華實踐》。
以下為王建民教授演講實錄:
什么是大數據呢?根據維基百科的定義,它是一個包羅萬象的概念,如果一個數據集規模或處理復雜性,用傳統的數據處理系統難以駕馭,我們就把這個數據集叫做大數據。
數據要變現和應用,數據變現的過程需要軟件和計算力。從軟件的角度看,大數據分析有很多方面,其中一方面是解決數據大的問題。當前,有很多大數據軟件系統,例如Google大數據軟件棧、Hadoop的生態圈等,他們都圍繞著大數據軟件形成了一種生態,這樣的生態紛繁眾多,其中很多都是大家耳熟能詳的,也就是說大數據的軟件不是一天冒出來的,它是一個發展的過程。
傳統的數據處理、消息處理以及數據監控在原來“小數據”時就已經有了相應的軟件,今天是把其放在大數據的軟件生態里。所以當年在大數據的白皮書里,那些“大腦袋”問我們的大數據是不是要重新造一些輪子出來?顯然不是。我們要把傳統的數字技術,包括信息技術和計算技術融合起來,形成圍繞著技術應用的體系。
我們用獲取記錄、抽取清洗、集成聚合、分析建模、解釋展示這五步來達到目標。但是數字分析并不是拿來的數據就能取得價值。數字應用當中有很多的曲折和循環,我們能找到幾點價值就很幸運了,這就是大數據的魅力。
所以我們要以終為始,跨界協同。我們的目標是減少數據的循環。比如,從商業理解到數據理解,可能一個商業問題很難用數據解決,找到差不多的數據來做循環,有問題再重新做循環。我們需要克服很多困難,才能真正發現數據的價值。
這個循環給系統建設帶來怎樣的問題和挑戰呢?一套大數據軟件不可能解決所有的問題,因為每次循環中都用到了新的算法、新的工具和新的系統。所以大數據軟件系統是動態變化的,用一套軟件遠遠不能滿足這樣的狀況。
既然大數據系統是不確定的,那我們能不能找到確定的辦法構造大數據系統呢?這就是我們想的“循環”。在2014年,我們在國家實驗室立項,開始研究大數據應用開發的一體化平臺,解決變化的問題。在大數據的生命周期里,隨著需求的不斷演化,系統也要不斷的變化。此外,我們還希望大數據系統里有一個工程的部分,使得在時間成本可控的情況下,構建一個可用的大數據系統。
在這樣的方法指引下,我們就做了“清華數為”這樣一個可自由組裝的大數據軟件棧。它的優勢在于“清華數為框架DWF”,這個框架可以一半做信息化,一半做智能化,使得數據變現的結果回到信息化系統中。
詳細介紹一下“清華數為框架DWF”。它是一個大數據系統的協調器,是物聯網領域應用的組態軟件,也是支持信息化應用的低碼量開發。它的定位和使命就是將數據中臺和數據后臺協調起來,合理分工。
它形成的產品,第一個是“工程機械行業—智能運維服務系統”。這個智能頭盔,相當于內置一部手機,可以智能感知問題并形成自動化解決方案,同時可使維修執行過程可視化、結果分析智能化。
第二個就是“工業物聯網的時序數據管理系統——Apache IoTDB”,它圍繞物聯網支持時間序列數據全生命周期來進行處理和分析,從數據收集開始到數據被加工和挖掘結束,完成整個生命周期的使用。并且,它可以靈活適配“云-網-端”計算環境,完成一體化部署。2018年11月,IoTDB的正式進入Apache社區,開源這一年多來,被國內和國外各界接受和使用,同時他們對我們項目的成熟也做出了很大貢獻。
第三個是“機器學習生命周期Xlearn”。在軟件棧機器學習的六個環節里,有一些是存在短板的,Xlearn可以通過遷移學習環境來彌補這樣的短板,實現舉一反三。
對于大數據重要的不僅是機器智能,還有人的智能。那人的智能如何與機器智能相互融合呢?可視化是非常重要的手段,我最早是做CAD的,今天大數據的可視化和當初畫圖的可視化的區別,是對數據級特定的可視化問題,而對一個數據級的特定的可視化,要看有沒有找到交互的通道,把數據背后的知識發掘出來。
為了解決這個問題,我們做了一個叫AutoVis的工具,把人與數據、人與人、數據與人融合起來,形成全方位的數據挖掘和利用,讓數據更有價值。
最后借用馬云的兩句話,數字化時代,前兩個階段就是業務的數字化,把人的行為變成信息,把機器的行為變成信息,然后再把數據業務化。信息化和物聯網積累的數據要有價值,一定要通過BI和AI轉化出去。
從應用來看,最早我們在三一重工裝備大數據,當時還沒有想到特別現代的工業大數據,只是把每一個設備返回的數據用起來,現在已有很多的大數據應用。第二,與河北天遠公司為小設備做服務,就是把數據變得有價值,從而使大數據應用起來。我們通過攝像頭來辨別半斗和滿斗的情況,為什么這個辨別很重要,現代工程中的大型設備都是租賃的,在租賃的過程中,設備運輸了多少東西,大家說不清楚,但有了這個AI技術,就可以算清楚,這些都是通過數據解決了問題。
全國天氣預報的專業天氣預報平臺也是我們做的,每個省的天氣不同,都有自己的的氣象預報臺,每個省的氣象預報責任由每個省負責。我們也會把氣象的數據跟風力發電和太陽能發電結合在一起,把它變成優質的電源。最后,特別感謝神州信息給我們帶來這樣的一次分享機會,謝謝大家。