追蹤法在行業(yè)污染分類中的應(yīng)用
導(dǎo)讀:用追蹤法進(jìn)行模糊聚類分析主要可以分為:數(shù)據(jù)標(biāo)準(zhǔn)化、標(biāo)定(建立模糊矩陣)、模糊聚類三個(gè)部分。其余的23個(gè)行業(yè)污染程度居中。模糊聚類,追蹤法在行業(yè)污染分類中的應(yīng)用。
關(guān)鍵詞:模糊聚類,追蹤法,行業(yè)污染
1 引言
傳統(tǒng)的聚類分析是一種硬劃分,每個(gè)對(duì)象都只能歸于一類,而現(xiàn)實(shí)的分類問題往往伴隨著模糊性,即每個(gè)對(duì)象屬于某一類是程度問題。這時(shí)候單純的嚴(yán)密的理論推導(dǎo)和數(shù)學(xué)計(jì)算往往達(dá)不到很好的效果,相反,模糊邏輯在這方面具有極大的優(yōu)勢(shì)【1】,隨著模糊數(shù)學(xué)的不斷發(fā)展,聚類的算法也在不斷的更新和發(fā)展.新產(chǎn)生的聚類算法更加適用于生產(chǎn)生活,并且和計(jì)算機(jī)技術(shù)的結(jié)合也更加緊密,追蹤法就是這樣的一種算法。和傳統(tǒng)的聚類方法相比較,追蹤法在建立模糊矩陣后,不需要計(jì)算等價(jià)閉包,也不需要畫圖或者編程求解模糊矩陣的最大生成樹和編網(wǎng),只需要對(duì)模糊矩陣進(jìn)行算法復(fù)雜度為O(n2)的數(shù)據(jù)分析,就可以得出聚類結(jié)果。
2 模糊聚類新算法---追蹤法的計(jì)算步驟
用追蹤法進(jìn)行模糊聚類分析主要可以分為:數(shù)據(jù)標(biāo)準(zhǔn)化、標(biāo)定(建立模糊矩陣)、模糊聚類三個(gè)部分。
2.1 數(shù)據(jù)標(biāo)準(zhǔn)化
這里所說的數(shù)據(jù)標(biāo)準(zhǔn)化,就是根據(jù)模糊數(shù)學(xué)相關(guān)理論,去掉數(shù)據(jù)中的量綱,并將數(shù)據(jù)壓縮到區(qū)間[0,1]上。
設(shè)論域
為被分類的對(duì)象,每個(gè)對(duì)象可以使用m個(gè)指標(biāo)表示其性狀:
于是得到原始數(shù)據(jù)為:
在實(shí)際問題中,不同的數(shù)據(jù)由于其量綱不同,無法進(jìn)行比較。為了使有不同量綱的量也能進(jìn)行比較,通常需要對(duì)數(shù)據(jù)作適當(dāng)?shù)淖儞Q。一般采用平移標(biāo)準(zhǔn)差變化法來解決這個(gè)問題,計(jì)算公式如下:
=
經(jīng)過變換后,變量的均值為0,標(biāo)準(zhǔn)差為1,且消除了量綱的影響。
2.2 標(biāo)定(建立模糊矩陣)
設(shè)論域
依照傳統(tǒng)聚類方法確定相似系數(shù),建立模糊相似矩陣,
與
的相似程度
,確定
的方法主要借用傳統(tǒng)聚類的數(shù)量積法、夾角余旋法、相關(guān)系數(shù)法、指數(shù)相似系數(shù)法、絕對(duì)值倒數(shù)法、絕對(duì)值指數(shù)法、閔可夫斯基距離法、馬氏距離法和蘭氏距離法等方法。具體采用哪些方法進(jìn)行聚類分析,主要依據(jù)實(shí)際情況決定。
2.3 使用追蹤法進(jìn)行模糊聚類
在建立了模糊相似矩陣后,就可以用追蹤法進(jìn)行數(shù)據(jù)分析。主要步驟如下:
1 模糊相似矩陣R出發(fā),求得其
截矩陣
; 2 于對(duì)稱性,先得到截矩陣
下三角部分(不包括主對(duì)角線元素),再記錄該部分的非零元素下標(biāo),并存在二元數(shù)組A[t][2]中;
3 令g=1,且將g存入數(shù)組b[n]中;
4 行搜索數(shù)組A[t][2],若數(shù)組a中有元素A[i][j](1≤i≤n,1≤j≤2)與g相等,且同一行的另一元素(A[i][j±1])在數(shù)組b中不存在,則將A[i][j±1]存入數(shù)組b[n]中;
5 令g遍取數(shù)組b中元素,重復(fù)步驟4,直到?jīng)]有新的元素加入數(shù)組b;
6 將數(shù)組b中元素按行存入二元數(shù)組C[n][n]中;
7 令g取1~n中任一個(gè)數(shù)組C[n][n]中不存在的元素,重復(fù)步驟4~6;直到數(shù)組C[n][n]中的元素總數(shù)等于待分類對(duì)象的個(gè)數(shù)n為止【2】。
3 追蹤法在行業(yè)排污情況中的應(yīng)用
下面,以從國(guó)家統(tǒng)計(jì)局網(wǎng)站找到2005年工業(yè)按行業(yè)分廢氣排放及處理情況的統(tǒng)計(jì)數(shù)據(jù)為例,說明模糊聚類新算法在行業(yè)排污聚類中的應(yīng)用,數(shù)據(jù)如表1所示:
表1 行業(yè)排污數(shù)據(jù)統(tǒng)計(jì)表
行業(yè) | 二氧化硫排放量(萬噸) | 二氧化硫去除量(萬噸) | 工業(yè)煙塵排放量(萬噸) | 工業(yè)煙塵去除量(萬噸) | 工業(yè)粉塵排放量(萬噸) | 工業(yè)粉塵去除量(萬噸) |
煤炭開采和洗選業(yè) | 21 | 5.7 | 10.9 | 141.8 | 24.6 | 9.7 |
石油和天然氣開采業(yè) | 3.2 | 11.6 | 1.4 | 9.9 | 0.1 | 0.1 |
黑色金屬礦采選業(yè) | 4.3 | 1.9 | 1.7 | 19.2 | 3.9 | 31.7 |
有色金屬礦采選業(yè) | 6.7 | 6.3 | 2.7 | 22.4 | 2.8 | 31.0 |
非金屬礦采選業(yè) | 5.7 | 10.9 | 6.8 | 30.7 | 8.8 | 22.1 |
農(nóng)副食品加工業(yè) | 15.6 | 6.4 | 20.4 | 97.2 | 2.1 | 4.7 |
食品制造業(yè) | 9.4 | 3.5 | 5.1 | 41.7 | 0.6 | 1.2 |
飲料制造業(yè) | 10.7 | 3.1 | 9.0 | 38.1 | 0.2 | 0.6 |
煙草制品業(yè) | 1.3 | 1.2 | 0.6 | 6.4 | 0.2 | 1.7 |
紡織業(yè) | 29.6 | 8.7 | 12.8 | 120.4 | 0.3 | 1.0 |
紡織服裝鞋帽制造業(yè) | 1.5 | 0.6 | 0.7 | 6.3 | 1.3 | 5.1 |
木材加工及木竹滕棕草制品業(yè) | 4.8 | 0.7 | 5.5 | 20.7 | 1.6 | 10.5 |
家具制造業(yè) | 0.4 | 0.5 | 0.2 | 6.8 | 0.2 | 5.6 |
文教體育用品制造業(yè) | 0.3 | 0.1 | 0.2 | 2.6 | 0.4 | 15.1 |
醫(yī)藥制造業(yè) | 6.4 | 2.5 | 4.2 | 32.5 | 0.1 | 0.2 |
化學(xué)纖維制造業(yè) | 11.5 | 5.8 | 4.6 | 117.8 | 0.1 | 1.8 |
金屬制品業(yè) | 2.6 | 0.6 | 1.7 | 6.3 | 1.0 | 3.1 |
通用設(shè)備制造業(yè) | 5.5 | 1.4 | 3.8 | 33.1 | 2.3 | 10.3 |
專用設(shè)備制造業(yè) | 3.3 | 2.3 | 21 | 10.5 | 1.7 | 4.7 |
交通運(yùn)輸設(shè)備制造業(yè) | 4.1 | 1.5 | 3.0 | 39.6 | 3.2 | 14.1 |
電氣機(jī)械及器材制造業(yè) | 2.7 | 0.9 | 1.5 | 5.0 | 0.3 | 0.1 |
通信計(jì)算機(jī)及其他電子設(shè)備制造業(yè) | 1.7 | 0.7 | 0.8 | 6.1 | 0.4 | 5.8 |
工藝品及其他制造業(yè) | 0.5 | 0.1 | 0.5 | 0.9 | 0.2 | 0.5 |
燃?xì)馍a(chǎn)和供應(yīng)業(yè) | 1.9 | 0.8 | 1.4 | 25.5 | 0.1 | 2.2 |
從表一的數(shù)據(jù)中不難看出,各行業(yè)由于行業(yè)發(fā)展水平不同,所以各行業(yè)排污的情況也不相同,傳統(tǒng)的硬性分類方法,很顯然不適合對(duì)表一的數(shù)據(jù)進(jìn)行分類。這里采用模糊聚類新方法——追蹤法來處理以上數(shù)據(jù)。詳細(xì)計(jì)算步驟如下:
3.1 數(shù)據(jù)標(biāo)準(zhǔn)化
根據(jù)表一中的數(shù)據(jù),可得到數(shù)據(jù)的原始矩陣為:
運(yùn)用標(biāo)準(zhǔn)差法,可消除數(shù)據(jù)中的量綱, 其Matlab程序如下:
%計(jì)算平均值
for k=1:1:m
sum=0;
fori=1:1:n;
sum=sum+x(i,k);
end
mean(k)=sum/n;
end
%計(jì)算s(k)
for k=1:1:m
sum=0;
fori=1:1:n;
temp=(x(i,k)-mean(k))^2;
sum=sum+temp;
end
s(k)=sqrt(sum/n);
end
%消除量綱
fori=1:1:n
for k=1:1:m
x(i,k)=(x(i,k)-mean(k))/s(k);
end
end
3.2 建立模糊矩陣
本文應(yīng)用閔可夫斯基距離法建立模糊相似矩陣,其計(jì)算方法如下:
式中,C和
是兩個(gè)適當(dāng)選擇的參數(shù)。
取C=0. 1(保證
的取值在0與1之間) m=3 q=2
=1可得計(jì)算方法為:
其Matlab程序如下:
for i=1:1:n
for j=1:1:n
sum=0;
for k=1:1:m
temp=x(i,k)-x(j,k);
temp=temp*temp;
sum=sum+temp;
end
r(i,j)=1-0.1*sqrt(sum);
end
end
3.3 使用追蹤法進(jìn)行模糊聚類
本次聚類選取α=0.71,從模糊相似矩陣R出發(fā),求得其
截矩陣
;先得到截矩陣
下三角部分(不包括主對(duì)角線元素),再記錄該部分的非零元素下標(biāo),并存在二元數(shù)組A[t][2]中(本次分類中t=136),再按照本文2.3中描述的方法,對(duì)數(shù)據(jù)進(jìn)行追蹤分類。寫作,模糊聚類。最后,可將行業(yè)污染數(shù)據(jù)分成三類:1 煤炭開采和洗選業(yè);2農(nóng)副食品加工業(yè)和紡織業(yè);3 其余23個(gè)行業(yè)為一類。
通過分類發(fā)現(xiàn):煤炭開采和洗選業(yè)屬于重度污染行業(yè),其對(duì)環(huán)境的影響,遠(yuǎn)遠(yuǎn)大于其他行業(yè);農(nóng)副食品加工業(yè)和紡織業(yè)屬于污染較小的行業(yè),相對(duì)而言對(duì)環(huán)境的影響較小;其余的23個(gè)行業(yè)污染程度居中。寫作,模糊聚類。寫作,模糊聚類。
4 結(jié)論
使用模糊聚類的新方法—追蹤法,可以較為準(zhǔn)確的對(duì)行業(yè)污染進(jìn)行分析。寫作,模糊聚類。寫作,模糊聚類。和傳統(tǒng)的聚類分析方法相比較,追蹤法的運(yùn)算復(fù)雜度只有O(n2),具有運(yùn)算速度快,分類準(zhǔn)確等特點(diǎn)。寫作,模糊聚類。比較適合于處理大量數(shù)據(jù)分類的問題,具有一定的應(yīng)用前景。
參考文獻(xiàn)
[1]方宏斌.模糊聚類及其實(shí)際應(yīng)用[J].廣東通信技術(shù),2005,05:9-13
[2]張興華.模糊聚類分析的新算法[J].數(shù)學(xué)認(rèn)知與實(shí)踐,2005,35(3):138-141
使用微信“掃一掃”功能添加“谷騰環(huán)保網(wǎng)”