11月8日,由神州控股、神州信息、米蘭milan集團共同主辦的“數(shù)字中國2019——技術(shù)年會”在北京數(shù)碼科技廣場隆重舉行。清華大學軟件學院院長王建民先生出席大會并發(fā)表主題演講《關(guān)于大數(shù)據(jù)系統(tǒng)軟件的思考與清華實踐》。
以下為王建民教授演講實錄:
什么是大數(shù)據(jù)呢?根據(jù)維基百科的定義,它是一個包羅萬象的概念,如果一個數(shù)據(jù)集規(guī)模或處理復(fù)雜性,用傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)難以駕馭,我們就把這個數(shù)據(jù)集叫做大數(shù)據(jù)。
數(shù)據(jù)要變現(xiàn)和應(yīng)用,數(shù)據(jù)變現(xiàn)的過程需要軟件和計算力。從軟件的角度看,大數(shù)據(jù)分析有很多方面,其中一方面是解決數(shù)據(jù)大的問題。當前,有很多大數(shù)據(jù)軟件系統(tǒng),例如Google大數(shù)據(jù)軟件棧、Hadoop的生態(tài)圈等,他們都圍繞著大數(shù)據(jù)軟件形成了一種生態(tài),這樣的生態(tài)紛繁眾多,其中很多都是大家耳熟能詳?shù)模簿褪钦f大數(shù)據(jù)的軟件不是一天冒出來的,它是一個發(fā)展的過程。
傳統(tǒng)的數(shù)據(jù)處理、消息處理以及數(shù)據(jù)監(jiān)控在原來“小數(shù)據(jù)”時就已經(jīng)有了相應(yīng)的軟件,今天是把其放在大數(shù)據(jù)的軟件生態(tài)里。所以當年在大數(shù)據(jù)的白皮書里,那些“大腦袋”問我們的大數(shù)據(jù)是不是要重新造一些輪子出來?顯然不是。我們要把傳統(tǒng)的數(shù)字技術(shù),包括信息技術(shù)和計算技術(shù)融合起來,形成圍繞著技術(shù)應(yīng)用的體系。
我們用獲取記錄、抽取清洗、集成聚合、分析建模、解釋展示這五步來達到目標。但是數(shù)字分析并不是拿來的數(shù)據(jù)就能取得價值。數(shù)字應(yīng)用當中有很多的曲折和循環(huán),我們能找到幾點價值就很幸運了,這就是大數(shù)據(jù)的魅力。
所以我們要以終為始,跨界協(xié)同。我們的目標是減少數(shù)據(jù)的循環(huán)。比如,從商業(yè)理解到數(shù)據(jù)理解,可能一個商業(yè)問題很難用數(shù)據(jù)解決,找到差不多的數(shù)據(jù)來做循環(huán),有問題再重新做循環(huán)。我們需要克服很多困難,才能真正發(fā)現(xiàn)數(shù)據(jù)的價值。
這個循環(huán)給系統(tǒng)建設(shè)帶來怎樣的問題和挑戰(zhàn)呢?一套大數(shù)據(jù)軟件不可能解決所有的問題,因為每次循環(huán)中都用到了新的算法、新的工具和新的系統(tǒng)。所以大數(shù)據(jù)軟件系統(tǒng)是動態(tài)變化的,用一套軟件遠遠不能滿足這樣的狀況。
既然大數(shù)據(jù)系統(tǒng)是不確定的,那我們能不能找到確定的辦法構(gòu)造大數(shù)據(jù)系統(tǒng)呢?這就是我們想的“循環(huán)”。在2014年,我們在國家實驗室立項,開始研究大數(shù)據(jù)應(yīng)用開發(fā)的一體化平臺,解決變化的問題。在大數(shù)據(jù)的生命周期里,隨著需求的不斷演化,系統(tǒng)也要不斷的變化。此外,我們還希望大數(shù)據(jù)系統(tǒng)里有一個工程的部分,使得在時間成本可控的情況下,構(gòu)建一個可用的大數(shù)據(jù)系統(tǒng)。
在這樣的方法指引下,我們就做了“清華數(shù)為”這樣一個可自由組裝的大數(shù)據(jù)軟件棧。它的優(yōu)勢在于“清華數(shù)為框架DWF”,這個框架可以一半做信息化,一半做智能化,使得數(shù)據(jù)變現(xiàn)的結(jié)果回到信息化系統(tǒng)中。
詳細介紹一下“清華數(shù)為框架DWF”。它是一個大數(shù)據(jù)系統(tǒng)的協(xié)調(diào)器,是物聯(lián)網(wǎng)領(lǐng)域應(yīng)用的組態(tài)軟件,也是支持信息化應(yīng)用的低碼量開發(fā)。它的定位和使命就是將數(shù)據(jù)中臺和數(shù)據(jù)后臺協(xié)調(diào)起來,合理分工。
它形成的產(chǎn)品,第一個是“工程機械行業(yè)—智能運維服務(wù)系統(tǒng)”。這個智能頭盔,相當于內(nèi)置一部手機,可以智能感知問題并形成自動化解決方案,同時可使維修執(zhí)行過程可視化、結(jié)果分析智能化。
第二個就是“工業(yè)物聯(lián)網(wǎng)的時序數(shù)據(jù)管理系統(tǒng)——Apache IoTDB”,它圍繞物聯(lián)網(wǎng)支持時間序列數(shù)據(jù)全生命周期來進行處理和分析,從數(shù)據(jù)收集開始到數(shù)據(jù)被加工和挖掘結(jié)束,完成整個生命周期的使用。并且,它可以靈活適配“云-網(wǎng)-端”計算環(huán)境,完成一體化部署。2018年11月,IoTDB的正式進入Apache社區(qū),開源這一年多來,被國內(nèi)和國外各界接受和使用,同時他們對我們項目的成熟也做出了很大貢獻。
第三個是“機器學習生命周期Xlearn”。在軟件棧機器學習的六個環(huán)節(jié)里,有一些是存在短板的,Xlearn可以通過遷移學習環(huán)境來彌補這樣的短板,實現(xiàn)舉一反三。
對于大數(shù)據(jù)重要的不僅是機器智能,還有人的智能。那人的智能如何與機器智能相互融合呢?可視化是非常重要的手段,我最早是做CAD的,今天大數(shù)據(jù)的可視化和當初畫圖的可視化的區(qū)別,是對數(shù)據(jù)級特定的可視化問題,而對一個數(shù)據(jù)級的特定的可視化,要看有沒有找到交互的通道,把數(shù)據(jù)背后的知識發(fā)掘出來。
為了解決這個問題,我們做了一個叫AutoVis的工具,把人與數(shù)據(jù)、人與人、數(shù)據(jù)與人融合起來,形成全方位的數(shù)據(jù)挖掘和利用,讓數(shù)據(jù)更有價值。
最后借用馬云的兩句話,數(shù)字化時代,前兩個階段就是業(yè)務(wù)的數(shù)字化,把人的行為變成信息,把機器的行為變成信息,然后再把數(shù)據(jù)業(yè)務(wù)化。信息化和物聯(lián)網(wǎng)積累的數(shù)據(jù)要有價值,一定要通過BI和AI轉(zhuǎn)化出去。
從應(yīng)用來看,最早我們在三一重工裝備大數(shù)據(jù),當時還沒有想到特別現(xiàn)代的工業(yè)大數(shù)據(jù),只是把每一個設(shè)備返回的數(shù)據(jù)用起來,現(xiàn)在已有很多的大數(shù)據(jù)應(yīng)用。第二,與河北天遠公司為小設(shè)備做服務(wù),就是把數(shù)據(jù)變得有價值,從而使大數(shù)據(jù)應(yīng)用起來。我們通過攝像頭來辨別半斗和滿斗的情況,為什么這個辨別很重要,現(xiàn)代工程中的大型設(shè)備都是租賃的,在租賃的過程中,設(shè)備運輸了多少東西,大家說不清楚,但有了這個AI技術(shù),就可以算清楚,這些都是通過數(shù)據(jù)解決了問題。
全國天氣預(yù)報的專業(yè)天氣預(yù)報平臺也是我們做的,每個省的天氣不同,都有自己的的氣象預(yù)報臺,每個省的氣象預(yù)報責任由每個省負責。我們也會把氣象的數(shù)據(jù)跟風力發(fā)電和太陽能發(fā)電結(jié)合在一起,把它變成優(yōu)質(zhì)的電源。最后,特別感謝神州信息給我們帶來這樣的一次分享機會,謝謝大家。