可能會說謊的地圖!全國疫情地理格局的重新審視

大數據文摘 發佈 2020-02-02T19:34:57+00:00

然而,由於地圖呈現疫情數據是一個聚合和綜合的過程,所選用的空間尺度,單元類型,聚類方法和呈現形式都會產生一定的差異。

大數據文摘投稿作品

來源:nCoV疫情地圖

作者:張海平


新型冠狀病毒肺炎患者在全國範圍內的覆蓋面非常廣泛,每天的變化也較大。由於其所固有的時空特徵,採用地圖的手段對疫情數據的空間特徵、時間特徵和數量特徵進行可視化呈現成為最為普遍的方式。然而,由於地圖呈現疫情數據是一個聚合和綜合的過程,所選用的空間尺度(如大尺度聚合、小尺度聚合等),單元類型(如省級、地市級等),聚類方法(分位數法、標準差法等)和呈現形式(如面元密度圖、核密度圖等)都會產生一定的差異。儘管地圖本身是對數據分布的客觀反映,但由於表現目標、專業認知等方面的差異,導致做出的結果存在主觀性、偏向性等問題。這必然導致疫情地圖「說謊」


下面從這四個方面重新審視目前全國疫情的地理格局,有助於疫情分布地圖的讀者能夠更加理性地通過地圖讀懂疫情的當前態勢,而對於疫情分布地圖的製作者,能夠選用更合理的方式構建疫情地圖。


地理單元的影響


如果不考慮相關性分析,地理單元對疫情地圖結果的影響主要體現在對信息的概化程度層面。如圖1所示為目前各大媒體或機構所採用的主流可視化方式,其基本統計單元是省份。從圖中可以看出,除了湖北省是一級重災區,除廣西、台灣以外,華東、華中和華南地區的其它省份均處於二級重災區。此外,二級重災區還包括華北的北京和西南的重慶和四川。擴散趨勢呈現明顯的地理鄰近效應和高等級節點的層次效應。從地理大格局和中央政府的頂層管理而言,圖1基本概括了當前疫情空間結構的基本特徵。


圖1 主流疫情地圖呈現方式


但是,正如大多數人所熟悉的那樣,地市行政單元層面的數據更能反映現實情形。儘管疫情的傳播具有地理空間依賴性,即上文中的空間鄰近效應,但中國的數百個地市是一個層次結構,而非平行的區域結構。或者說層次結構比區域結構更顯著。例如區域中心城市、省會城市等,都屬於高等級節點,且遠高於其他一般城市節點。


如圖2所示為地市層面的疫情地圖。重災區除了整個湖北省,主要分布在鄰近的重慶、湖南北部、河南南部。其它的還包括京津冀、長三角和珠三角的腹地。武漢及其所在省份湖北在一定程度上不僅可以看作是整個中國的中心,也是華中地區的中心,但從地市疫情地圖中可以看出,重災區也只是擴散到了華中其它兩省的邊緣地區。對於其它省份,疫情嚴重也主要是在部分城市。值得關注的是,在胡煥庸線以南那些被疫情包圍的未有疫情的孤島城市。即使是在一級重災區的華中地區也有此類現象。


圖2 地市單元層面的疫情地圖呈現方式


總之,在疫情地圖製作過程中,地理單元的選擇對讀者了解疫情信息的影響還是較大,在當前胡煥庸線以南幾乎全部淪陷,防範行動極為重要、民眾意識亟待提升的嚴峻形勢下,以更加科學、多元的形式向和社會提供疫情信息也是一項尤為重要的工作。如果涉及影響機制分析,則更需要重視地理單元的選擇,儘量減小可變面元問題對分析結果帶來的負面影響。


地理尺度的影響


除地理單元外,尺度是另一個在疫情製圖中需要考慮的問題。在不考慮可變面元問題時,地理單元的大小和地理尺度的選擇也有重合之處。此時,共同的影響表現在地圖的概化程度方面。上文通過面元的呈現方式有利於捕捉具體的地理單元,其缺點是難以直觀地捕捉到疫情重災區的空間分布特徵和等級特徵。如圖3所示為疫情確診人數的核機率密度地圖。在圖3的呈現尺度下,可以非常清晰、直觀地捕捉到重災區的區位、範圍和等級,甚至還可以非常直接地觀察到哪些疫情區域屬於擴散,哪些屬於遷移擴散。毫無疑問,如果關注疫情的擴散模式,這種製圖方式最佳


圖3 較小尺度疫情機率密度地圖


值得注意的是,作為一個尺度影響疫情製圖的案例,這裡對尺度的選取及其對疫情呈現帶來的影響進行簡要介紹。相比圖3,在一個更大的尺度上構建疫情地圖,結果如圖4所示,空間擴散的格局更加一目了然。這是大尺度疫情地圖的優點也是缺點。似乎相比圖3,圖4給出了更加直觀和有用的擴散模型。在如圖4所示的尺度上,到目前為止,較嚴重的疫情區中,珠三角疫情區在地理空間上獨立存在,而其它幾個疫情區已經基本連城一片,呈團狀和帶狀發展。


圖4 較大尺度疫情機率密度地圖


基於GIS場思想的疫情密度地圖因變化連續、邊界模糊而具有獨特的優勢,尤其是在宏觀特徵提取和可視化方面尤為突出。在疫情時空演變和過程模擬中也可採用此此路展開。筆者在文化空間擴散、城市宏觀形態特徵分析中基於此思想提出了一些有效的方法。


聚類方法的影響


目前對於疫情確診人員的空間分布製圖大多採用自定義的方式進行分級。一方面主要原因在於多數地圖基於省份展開,數量少,可以忽略數據的分布;另一方面,缺乏對地圖製圖過程中採用聚類方法的必要性的深刻認識。實際上,採用自定義的方法對確診數據進行分級,主要問題在於沒有考慮數據的整體分布。例如,採用Jenks』 Break方法和Quantile方法,得到的製圖結果差異很大且解讀方式截然不同。如圖5和與6是採用相同的數據,不同的聚類方法得到的疫情分布地圖結果,顯然結果差異較大。


在圖5中,聚類所遵循的原則是「組內差異最小,組間差異最大」。基於此原則,從圖中可以看出,武漢的疫情病例遠多於其它任何一個地市。其次是武漢周邊及其重慶等幾個地市,處於第二層級。這些處於第二層級的地市發病數量具有一定程度的相似性,可以說這些地市的病例遠少於武漢,但遠多於其它更小層級的疫情區。其它等級的分區的解讀方式於此類似。


圖5 基於Jenks』 Break聚類的疫情分布地圖


如圖6所示為基於無分位的聚類結果。這意味著處於一級疫情重災區的這些地市是所有地市中災情嚴重性位於前20%。次一級的地市處於前40%至20%之間。例如,烏魯木齊屬於40%-60%之間,而整個東北只有哈爾濱位列前40%。整個江蘇除了南京和蘇州,其它地市都在後60%。


圖6 基於Quantile聚類的疫情分布地圖


其它還有很多方式,如自定義、等間隔、幾何數、標準差方法等。具體選用哪種方式,要視分析需求而定。一般情形下,採用定量的聚類方法由於自定義,因為大多數聚類方法考慮了樣本的分布特徵。更為重要的是,讀圖一般要在了解採用了何種方法的前提下展開,尤其是採用了聚類方法的時候。如此說來,上文對於圖2的解讀,如果不了解或不考慮所用的聚類方法,其結論偏差會很大甚至錯誤。


呈現形式的影響


構建疫情分布地圖的視覺變量是非常豐富的,如顏色、方向、尺寸、形狀等。但對於數量關係,似乎人眼對於尺寸的差異性更加敏感。不同地市的確診病例數量懸殊,發病區位數量又較多,在此情形下,採用更有利於大眾捕捉不同區域確診病例數量的疫情分布製圖方式顯得尤為重要


如圖7為基於分級符號方法對當日所有確診病例進行疫情分布製圖後的結果。由於分級操作導致同一等級的數量差異被消除,因此同一等級的差異無法捕捉。這便是一種地圖對疫情「說謊」的情形,實際上,此類情形的「說謊」在上面所有的疫情地圖中都存在。其解決辦法是依據病例數量按照統一的比例進行符號化。如此以來,每個地市病例的數量與符號的尺寸成正比,又由於人眼對尺寸變量極為敏感,可以非常直觀地捕捉到不同地市病例的數量差異及其空間分布關係。採用比例分級的製圖結果如圖8所示。


圖7 分級符號與疫情製圖


從圖8中的結果可以非常明確地辨析武漢和鄰近區域及其它重災區在確診病例數量上的差異。其它地市不同規模的病例數量及其空間關係也非常明晰。當然,每種疫情地圖都有兩面性,通過此圖則難以直接分辨出不具有顯著特徵的地市的具體情形。


圖8 比例符號與疫情製圖


結語


國家正處於疫情最為嚴峻的困難時期,作為一名地理科研人員和科普工作者,希望通過此文能為疫情大眾化科普貢獻微薄之力。作為使用疫情地圖的讀者,應該正確理解疫情地圖,理性思考,積極防備;而作為疫情地圖的製作者,更要用專業的素養和嚴謹的態度製作疫情地圖產品。在疫情隨時擾動國民情緒的時刻,專業和理性顯得更為重要。

關鍵字: