環(huán)境保護(hù)部舉辦大數(shù)據(jù)與環(huán)境管理轉(zhuǎn)型專題培訓(xùn)引追捧
為落實(shí)黨中央和國(guó)務(wù)院對(duì)生態(tài)環(huán)境監(jiān)測(cè)大數(shù)據(jù)的要求,助推環(huán)境管理轉(zhuǎn)型,近期,環(huán)境保護(hù)部行政體制與人事司主辦了大數(shù)據(jù)與環(huán)境管理轉(zhuǎn)型專題培訓(xùn)班。
“這次培訓(xùn)的可貴之處在于,這是環(huán)境保護(hù)部第一次以先進(jìn)信息化理念為主要培訓(xùn)內(nèi)容的專題培訓(xùn)班。”環(huán)境保護(hù)部信息中心主任程春明表示。
培訓(xùn)班的規(guī)模之大也前所未有,基本覆蓋了環(huán)境保護(hù)部、省環(huán)境保護(hù)廳(局)、市級(jí)環(huán)保局三級(jí)環(huán)保系統(tǒng)。現(xiàn)場(chǎng)參加培訓(xùn)的有環(huán)境保護(hù)部機(jī)關(guān)各司局級(jí)、處級(jí)以上干部、在京各部直屬單位主要負(fù)責(zé)人。全國(guó)各省(自治區(qū)、直轄市)環(huán)保廳(局)工作人員、部機(jī)關(guān)其他工作人員則通過遠(yuǎn)程視頻會(huì)議系統(tǒng)設(shè)置的45個(gè)分會(huì)場(chǎng),以及內(nèi)網(wǎng)共171個(gè)視頻會(huì)議終端同步觀看了視頻直播。據(jù)統(tǒng)計(jì),培訓(xùn)人數(shù)多達(dá)4850人。
主辦方邀請(qǐng)的主講嘉賓也都是重量級(jí)專家,中國(guó)科學(xué)院虛擬經(jīng)濟(jì)與數(shù)據(jù)科學(xué)研究中心常務(wù)副主任石勇,曾從事中國(guó)人民銀行個(gè)人信用評(píng)分研究、實(shí)時(shí)信用卡審批系統(tǒng)研發(fā)等;阿里巴巴副總裁涂子沛是著名的信息管理專家,著作《大數(shù)據(jù)》、《數(shù)據(jù)之巔》成為我國(guó)研究大數(shù)據(jù)的標(biāo)桿;微軟亞洲研究院主管研究員鄭宇是多家高校的客座教授,提出了“城市計(jì)算”理論并獲得國(guó)內(nèi)外多個(gè)獎(jiǎng)項(xiàng)。此外,清華大學(xué)軟件學(xué)院副院長(zhǎng)王建民、百度總編輯趙承、IBM中國(guó)研究院研發(fā)總監(jiān)尹文君也都是大數(shù)據(jù)領(lǐng)域的資深專家。
專家們的精彩講座令聽眾大開眼界,不少上午因業(yè)務(wù)未能參加的人,聞聽反應(yīng)熱烈,下午紛紛擠時(shí)間趕來參加。許多聽眾表示,大數(shù)據(jù)培訓(xùn)不僅開闊了思路,也化解了平時(shí)工作的迷茫。
大數(shù)據(jù)應(yīng)用要避免哪些誤區(qū)?
大數(shù)據(jù)冠以“大”字,極容易讓人誤以為大數(shù)據(jù)是要窮盡全部的數(shù)據(jù),方能破解難題。
●大數(shù)據(jù)不只是 “大”和“全”
石勇坦言道,很多人確實(shí)認(rèn)為大數(shù)據(jù)時(shí)代就是要研究數(shù)據(jù)整體,數(shù)據(jù)量越大越好,某些著作也不乏這樣的誤導(dǎo)。他解釋說,大數(shù)據(jù)條件下,既要全數(shù)據(jù),也需要樣本數(shù)據(jù),不能有了全體,就拋棄樣本。
“沒有經(jīng)過機(jī)器學(xué)習(xí)的模型和算法就不能發(fā)揮預(yù)測(cè)作用。”石勇說,任何大數(shù)據(jù)都不能違背機(jī)器學(xué)習(xí)的過程,具有預(yù)測(cè)作用的模型都是機(jī)器學(xué)習(xí)的結(jié)果。并且開發(fā)一項(xiàng)應(yīng)用可能同時(shí)有很多算法和模型,機(jī)器學(xué)習(xí)成為挑選最優(yōu)算法和模型關(guān)鍵。
而這一切都依賴于樣本,模型和算法需要通過樣本進(jìn)行學(xué)習(xí),從而具有可推廣型和預(yù)測(cè)性。如在1000個(gè)全樣本中挑取300個(gè)進(jìn)行機(jī)器學(xué)習(xí),將結(jié)果推廣到另外700個(gè)樣本中,驗(yàn)證模型和算法。同時(shí),大數(shù)據(jù)中抽取的樣本普適性更強(qiáng)。
鄭宇強(qiáng)調(diào)說,不能盲目迷信大數(shù)據(jù)。數(shù)據(jù)并不是種類越多、數(shù)量越大,模型效果就越好。他認(rèn)為,不同數(shù)據(jù)代表的含義不一樣,不能把所有的數(shù)據(jù)放到“黑盒子”里進(jìn)行計(jì)算,納入模型計(jì)算的每一類數(shù)據(jù)都要經(jīng)過驗(yàn)證,對(duì)數(shù)據(jù)進(jìn)行有機(jī)融合才能發(fā)揮1+1>2的效果,否則既浪費(fèi)計(jì)算資源,也影響模型和算法的性能。
鄭宇提出了3條驗(yàn)證數(shù)據(jù)相關(guān)性的途徑,一要靠前人的經(jīng)驗(yàn)和知識(shí)進(jìn)行判斷,二要對(duì)數(shù)據(jù)相關(guān)性做可視化分析,三要用實(shí)踐證明數(shù)據(jù)與目標(biāo)的相關(guān)性。
●大數(shù)據(jù)不只是發(fā)現(xiàn)相關(guān)性
大數(shù)據(jù)時(shí)代最重要的一點(diǎn)是,可以將碎片化的、看似毫無關(guān)聯(lián)、只反映某個(gè)方面表面現(xiàn)象的信息進(jìn)行關(guān)聯(lián)分析,從而發(fā)現(xiàn)彼此之間的聯(lián)系,為決策提供參考。
但石勇認(rèn)為發(fā)現(xiàn)數(shù)據(jù)之間的相關(guān)性還不夠,還要通過相關(guān)性研究數(shù)據(jù)之間的因果性和必然性,實(shí)現(xiàn)大數(shù)據(jù)的預(yù)測(cè)功能,為決策服務(wù),這才是大數(shù)據(jù)魅力所在。
鄭宇也認(rèn)為,大數(shù)據(jù)的魅力就在于通過不確定加不確定,形成確定性的結(jié)果,從而形成決策指導(dǎo)實(shí)踐。
微軟配合環(huán)保部門開發(fā)的城市局地大氣主要污染物時(shí)空分布大數(shù)據(jù)模型——U-Air,正是將各種不確定的數(shù)據(jù)融合在一起,產(chǎn)生了確定性的結(jié)果。U-Air可以預(yù)測(cè)任何時(shí)段任何地點(diǎn)1km×1km的空氣質(zhì)量,準(zhǔn)確率已經(jīng)超越傳統(tǒng)模型。
大數(shù)據(jù)怎么助推信息經(jīng)濟(jì)?
后互聯(lián)網(wǎng)時(shí)代,數(shù)據(jù)經(jīng)濟(jì)為代表的信息經(jīng)濟(jì)已經(jīng)初露端倪。涂子沛認(rèn)為誰擁有數(shù)據(jù),誰就將擁有金山,誰使用好數(shù)據(jù),誰就會(huì)脫穎而出。
●大數(shù)據(jù)提升效率
涂子沛認(rèn)為信息經(jīng)濟(jì)的首要表現(xiàn)是大數(shù)據(jù)引發(fā)的效率革命。
滴滴快車正是大數(shù)據(jù)時(shí)代下信息經(jīng)濟(jì)的典型應(yīng)用。滴滴快車通過整合司機(jī)和公眾的供求信息,為雙方提供更加對(duì)稱的信息,達(dá)到了一石三鳥的效果,道路行車效率提高,司機(jī)收入增加,公眾需求得到滿足。據(jù)介紹,用了滴滴快的等打車軟件,司機(jī)的平均收入增加了約三分之一。
石勇則提到實(shí)時(shí)信用卡審批系統(tǒng),5秒鐘就可以辦一張信用卡,怎么實(shí)現(xiàn)的呢?申辦人的信息輸入個(gè)人信用系統(tǒng)后,系統(tǒng)可以在成千上萬的信息中搜索跟申請(qǐng)人相似的信息,通過類比,系統(tǒng)對(duì)申請(qǐng)者的貸款申請(qǐng)做出同意或拒絕的決策。如果申請(qǐng)人的貸款申請(qǐng)通過了,系統(tǒng)還會(huì)給出建議信貸額度。
石勇表示,現(xiàn)代社會(huì)高效率運(yùn)作只有大數(shù)據(jù)可以實(shí)現(xiàn),這在以往完全是無法想象的。
●大數(shù)據(jù)催生眾包眾籌
大數(shù)據(jù)不僅帶來了效率革命,而且?guī)砹诵碌馁Y源和藍(lán)海。移動(dòng)互聯(lián)網(wǎng)帶來的公眾大數(shù)據(jù),是大數(shù)據(jù)的新藍(lán)海。
涂子沛舉例道,華爾街日?qǐng)?bào)要把129年的紙質(zhì)報(bào)紙電子化,但是由于報(bào)紙年代久遠(yuǎn),掃描的準(zhǔn)確率非常低。如果用人工打字,日夜兼程也需要將近48年的時(shí)間。恰巧,當(dāng)時(shí)校驗(yàn)碼的研發(fā)者發(fā)現(xiàn),校驗(yàn)碼一天有幾億次的應(yīng)用。于是,他們將報(bào)紙掃描后,分割成一個(gè)一個(gè)的校驗(yàn)碼,運(yùn)用公眾的力量完成報(bào)紙的電子化工作。原理是,如果3~4人輸入同樣的內(nèi)容,就顯示內(nèi)容識(shí)別正確,之后再通過軟件將正確識(shí)別的驗(yàn)證碼整合起來,僅用24個(gè)月就完成了所有報(bào)紙的電子化。華爾街日?qǐng)?bào)正是通過眾包的方式,借助大眾的力量,低成本、高效率地完成了報(bào)紙電子化。
具體到環(huán)保領(lǐng)域,涂子沛認(rèn)為未來政府可以充當(dāng)“接單員”的角色,借助市場(chǎng)和公眾的力量參與環(huán)境保護(hù),開展環(huán)境管理工作。貴州就已經(jīng)開始應(yīng)用隨手拍,市民對(duì)污染信息拍照后可以直接上傳到政府部門,政府可以根據(jù)公眾的舉報(bào)進(jìn)行處理,這樣有利于形成全民參與環(huán)保的局面。
此外,大數(shù)據(jù)時(shí)代還可以調(diào)動(dòng)公眾、企業(yè)、環(huán)保組織等社會(huì)資源,共同挖掘數(shù)據(jù),為環(huán)境管理貢獻(xiàn)力量。原來僅靠環(huán)保部門一家完成的事情,現(xiàn)在可以由整個(gè)社會(huì)一起分擔(dān),真正實(shí)現(xiàn)環(huán)境管理的眾包眾籌。
大數(shù)據(jù)應(yīng)用需要哪些先決條件?
大數(shù)據(jù)是現(xiàn)代經(jīng)濟(jì)的助推器,但是大數(shù)據(jù)的實(shí)現(xiàn)還需要整個(gè)社會(huì)做好準(zhǔn)備。
●數(shù)據(jù)整合
石勇認(rèn)為,大數(shù)據(jù)系統(tǒng)和模型開發(fā)過程中,數(shù)據(jù)的篩選和整理是大數(shù)據(jù)非常重要和關(guān)鍵的環(huán)節(jié),但過程是非常繁復(fù)的浩大工程,比如中國(guó)人民銀行個(gè)人信用評(píng)分研究中,要梳理480個(gè)參數(shù)、八億五千萬個(gè)數(shù)據(jù),數(shù)據(jù)處理工作就長(zhǎng)達(dá)一年多;中國(guó)金融期貨交易所項(xiàng)目,為從歷史交易數(shù)據(jù)中挖掘出對(duì)結(jié)算會(huì)員風(fēng)險(xiǎn)預(yù)測(cè),數(shù)據(jù)的收集和整理也花費(fèi)了半年多時(shí)間。
石勇將數(shù)據(jù)挖掘分為6個(gè)步驟,其中第二、第三步都是有關(guān)數(shù)據(jù)收集和整合工作。首先要對(duì)數(shù)據(jù)進(jìn)行篩選,嚴(yán)格要求進(jìn)入模型的數(shù)據(jù),避免就是垃圾數(shù)據(jù),數(shù)據(jù)模型中最忌諱“零”,可能導(dǎo)致模型清空;其次,要對(duì)篩選的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)計(jì)算、回歸分析等預(yù)處理工作。
“大數(shù)據(jù)建設(shè)的前提就是要對(duì)數(shù)據(jù)整理和整合,數(shù)據(jù)不整合就沒有力量。”石勇表示,同樣,環(huán)保部門數(shù)據(jù)的整理和整合也是環(huán)保大數(shù)據(jù)的第一步。
●數(shù)據(jù)開放
與數(shù)據(jù)整合同樣重要的是數(shù)據(jù)開放,數(shù)據(jù)只有開放、有價(jià)值才能成為共享的大數(shù)據(jù)。上世紀(jì)80年代立法后,美國(guó)的企業(yè)開始開放數(shù)據(jù),90年代企業(yè)的排放量就下降了50%。
涂子沛認(rèn)為數(shù)據(jù)開放其實(shí)是一種管理社會(huì)的手段,開放數(shù)據(jù)是政府與社會(huì)實(shí)現(xiàn)共治的紐帶。政府可以利用數(shù)據(jù)實(shí)現(xiàn)管理,規(guī)范數(shù)據(jù)開放范圍,并且可以將數(shù)據(jù)變?yōu)閮r(jià)值,有償供應(yīng)一些數(shù)據(jù)。
數(shù)據(jù)資源的開放也為環(huán)境管理實(shí)現(xiàn)眾籌提供了條件,社會(huì)有很多可以幫助環(huán)保部門共治的資源。通過開放數(shù)據(jù),公民、環(huán)保組織、高校、研究所等機(jī)構(gòu)便可以開展更多的數(shù)據(jù)挖掘工作,為環(huán)境管理提供多種解決方案。
使用微信“掃一掃”功能添加“谷騰環(huán)保網(wǎng)”