如何通過機器學習自動進行大面積土地分類

水經注gis 發佈 2020-02-29T20:58:00+00:00

6.結語自該項目完成以來,ArcGIS Pro和ArcGIS API for Python進行了多項增強。現在,ArcGIS API for Python本身就支持U-net模型,並且除了能夠使用ArcGIS Notebooks訓練模型外,用戶現在還可以使用地理處理工具通過Arc


1. 概述

澳大利亞東北部的昆士蘭州的地理位置非常多樣化。它包括沿海雨林,廣泛的桉樹和相思林地,熱帶稀樹草原,短暫的內陸河流,沙漠和豐富的農業帶。面積為1,730,000平方公里(668,000平方英里),約為英國的七倍。

2. 背景

為了繪製和評估整個州的土地利用模式和變化,昆士蘭州環境與科學部(DES)於20多年前成立了昆士蘭州土地利用製圖計劃(QLUMP)。繪製和評估整個昆士蘭州的土地利用模式和變化過去是一個非常耗時,資源密集的過程。但是通過機器學習,DES遙感中心減少了對大片土地進行土地使用分類的時間,並且使算法的準確率達到了97%。


3. 製圖準備

DES遙感中心高級科學家安迪·克拉克(Andy Clark)表示:"土地使用已被確定為政府認為對昆士蘭州的發展與發展至關重要的基礎空間數據集。" "工作量很大,重要的是我們繼續提高收集數據的速度及其準確性。此外,我們必須遵守澳大利亞土地使用和管理分類系統建立的標準,以便與整個國家收集的數據保持一致。"

傳統上,用於使QLUMP保持最新狀態的方法依賴於一支熟練的空間科學家團隊來手動數字化衛星圖像中的土地利用特徵。由於昆士蘭州的規模,此過程花費了大量時間和資源。


"以前,我們已經進行了各種嘗試來實現QLUMP的自動化,但最終都被證明是失敗的," Clark說。"決策樹模型用於從輔助數據中推斷土地利用特徵;但是,這種方法無法準確表示地面上的情況。我們嘗試使用來自衛星圖像的光譜信息進行監督分類,但確定此過程無法成功地區分特徵,因為從光譜上看,它們看起來非常相似。而且,基於對象的圖像分析往往與手動繪製土地使用特徵一樣耗費資源。"

與高性能超級計算融合併與ArcGIS集成的計算機視覺代表了一種範式轉變,它提高了我們編譯和發布及時的土地使用信息的能力。

但是,近年來,機器學習(人工智慧(AI)的一個子學科)發展到現在,在圖像分析和分類中使用計算機視覺和深度學習已變得可行。

"藉助先進的編程工具和計算機硬體,成功應用機器學習對大片土地進行準確分類所需的速度和功能看起來非常有希望," Clark說。


實際上,他和他的團隊開發了一種模型,該模型可以自動對整個昆士蘭州不同類型的土地利用進行分類。這就是他們如何使其工作的方式。

4. 完善數據並培訓流程

訓練模型進行機器學習需要大量信息。幸運的是,對於DES,它已經使用QLUMP多年了,以收集數據。"只是對它進行改進,以便可以在機器學習過程中使用它," Clark說。


昆士蘭州環境與科學部(DES)創建了一個計算機視覺模型,該模型使用機器學習來繪製約翰斯頓河流域香蕉種植園的地圖。

他使用ArcGIS Pro和ArcPy生成和完善訓練數據。Clark還應用了一系列地理處理工具對計算機視覺模型中的預測機率進行後處理。

他解釋說:"[分類]工具用於將預測轉換為二進位柵格。" "使用柵格轉多邊形,將數據轉換為要素類。圖例[被用來]產生變化。並使用[消除]將小功能區合併為大功能區。"

QLUMP團隊通過隨機生成數千個點並評估每個點的土地使用情況來獨立驗證過程的準確性。

"ArcGIS Pro還會為我們生成錯誤矩陣,並創建和發布網絡地圖,應用程式和報告以與我們的利弊益相關進行溝通," Clark補充說。

在機器學習過程中,DES使用基於U-net架構的卷積神經網絡(CNN)幫助模型在視覺上識別土地覆蓋。CNN是模仿人腦功能的算法。通過暴露於大量的可視數據,模型可以學習區分數據中的相似點和不同點。

"我們從奧拉夫·隆納伯格(Olaf Ronneberger)那裡借來了這個想法,後者開發了該想法用於生物醫學圖像分割,這是一種在顯微鏡圖像中識別細胞的方法,"克拉克解釋說。"使用這種架構,我們創建了具有87,153,153個參數的算法。"

該小組通過神經網絡疊代地提供了數千個衛星圖像補丁,以產生預測結果。然後,該算法會自我評估並完善預測,然後重複該循環,直到最終達到97%的準確率。


該模型顯示了土地使用隨時間的變化。該示例顯示了昆士蘭州北部的香蕉種植園從2015年到2018年如何變化。

"Python被用來開發項目的計算機視覺部分," Clark說。"我們使用了NumPy(一個具有大量適用於Python的高級數學函數的庫)來處理多維數組,並使用了地理空間數據抽象庫(GDAL)來讀取圖像並將其轉換為NumPy數組-該格​​式是神經網絡。"然後,GDAL可以獲取輸出數組並將其轉換回圖像。

"GDAL讀取矢量數據的一小部分,但是ArcGIS Pro是處理矢量的主要工具," Clark說。"我們還使用Python庫Keras開發和評估深度學習模型。TensorFlow在後端運行。它是一個用於數據流和創建大規模神經網絡的人工智慧庫。"

在機器學習中,由於必須快速重複地處理和精鍊大量數據,因此處理速度至關重要。這就是DES使用8個Tesla V100圖形處理單元(GPU)並連接至其高性能計算基礎架構進行深度學習數據處理的原因。

"處理速度非常快," Clark說。"每個GPU在大約2.5天內實質上為我們提供了相當於一年的常規CPU處理能力。"

5. 擴展到其他土地用途

最初,該模型經過培訓,可以識別和繪製昆士蘭州北部約翰斯頓河流域的香蕉種植園。然後用於推斷塔利流域的香蕉種植園。這使參與圖像分析的科學家能夠集中精力解釋模型產生的圖像,以便他們可以更好地告知部門決策者有關植物疾病的適當生物安全應對措施。


巴拿馬第4種族熱帶病是一種嚴重的疾病,可以在香蕉種植園中迅速傳播。2015年,昆士蘭州農業和漁業部(DAF)在檢查植物樣本時將其檢測到。


在2015年的巴拿馬熱帶種族4爆發後,DES必須在某些香蕉種植園採取生物安全措施。

當時,DES尚未實施其基於計算機視覺的圖像分析過程。因此,要確定無處不在的真菌的傳播範圍,每年需要五個科學家組成的團隊來手動繪製和分析昆士蘭州的所有香蕉種植園和其他土地利用類別。

這些科學家的製圖工作隨後被用來幫助訓練CNN模型。在2019年,DES收到了新圖像並更新了香蕉種植園地圖,計算機花了四天時間完成。由於其速度和準確性,目前正在訓練CNN模型以繪製其他土地利用類別。

"將計算機視覺與高性能超級計算融合併與ArcGIS集成代表了一種範式轉變,它提高了我們編譯和發布及時的土地使用信息的能力," Clark說。"這些方法對於任何圖像分割任務都是可持續的,並且已應用於昆士蘭州樹木繁茂的植被的製圖,這是完全不同的應用程式,因為這些區域的範圍從茂密的雨林到散亂的樹木景觀。"

DES打算將其方法擴展到大多數土地用途,包括其他農作物類型,林業人工林和城市土地用途類別。

"你可以在圖像中看到的任何內容,都可以訓練算法來查找。你只需要大量高質量的培訓數據," Clark說。"基於迄今為止開發的方法,計算機視覺能夠為大面積的製圖和監視程序帶來效率,從而為政府和非政府組織的自然資源管理和監視提供信息。

6. 結語

自該項目完成以來,ArcGIS Pro和ArcGIS API for Python進行了多項增強。現在,ArcGIS API for Python本身就支持U-net模型,並且除了能夠使用ArcGIS Notebooks訓練模型外,用戶現在還可以使用地理處理工具通過ArcGIS Pro本地訓練深度學習模型。從標註和準備數據到訓練模型和運行推理,ArcGIS Pro和Notebooks均支持端到端的深度學習工作流程。這與有效管理影像數據的ArcGIS Image Server技術相結合,大大簡化了工作流程。展望未來,DES正在考慮通過ArcGIS運行其土地覆蓋分類工作流程。

關鍵字: