| 監控影像 AI 是如何被「訓練」出來的 |
| |
|
| |
|
 |
291 |
|
| 最後更新時間:1月 | 6日 , 2026 |
|
| |
 |
 |
|
|
| 監控影像的 AI,常被形容成「裝上系統之後就能自動辨識畫面」,彷彿只要設備到位、演算法上線,影像就會自然轉換為可用的判斷結果。但在實際專案與長期維運現場,這樣的瞭解往往過於簡化。真正運作中的監控影像 AI,更接近一套需要長時間培養、反覆校正的視覺系統,它並不是一次設定完成就能永久適用,而是會隨著環境、使用方式與場域條件的變化,不斷受到挑戰。 |
| |

在導入之前,系統設計者必須先釐清一個最根本的問題:AI 到底要負責「看懂」什麼。有些場域只需要基本的人與車辨識,用來支援人流統計或進出管控;有些則希望進一步辨識入侵、徘徊、遺留物、打架、跌倒或闖入禁區等行為事件。不同的目標,意味著完全不同的資料需求與訓練方式。接下來,才會進一步決定採用人工標註、弱監督、自監督,或模擬資料等策略來進行訓練。即便模型在實驗室測試中表現良好,只要實際環境開始出現變化,辨識效果仍可能逐步偏移,這也是為什麼監控影像 AI 的訓練與導入,往往被視為一項需要長期調整與持續維運的工作,而非一次性的專案交付。近年產業界愈來愈重視 MLOps(Machine Learning Operations),正是出於這樣的現實考量。
第一步:資料從哪裡來
一、真實場域資料:最有效、也最昂貴
對監控 AI 來說,最有用的資料永遠是「跟你要部署的場域最像」的影像,同樣的鏡頭高度、焦段、逆光條件、地面材質、雨霧、夜間照明、制服樣式、人車密度。原因很簡單,視覺模型對資料分佈非常敏感,你在倉儲訓練的模型,搬到車站或醫院,效果很可能立刻掉一截,這就是典型的 領域偏移(domain shift) 與 資料漂移(data drift) 問題。
二、公開資料集:用來打底與對齊基本能力
業界很常先用公開資料集把「基本視覺能力」訓練起來,再用場域資料做微調。像 COCO(Common Objects in Context)這種大型資料集,提供物件偵測、分割等任務常用的標註,長期作為電腦視覺的標準基準之一。你可以把它理解成先讓模型「普遍看得懂世界」,再教它「看得懂你的現場」。
三、模擬資料與數位孿生
當你缺乏特定情境時,例如:特定角度的翻越圍籬、稀有的安全事件、某種特殊 PPE 穿戴辨識,產業界越來越常用「模擬資料」來補足——用模擬器或數位孿生生成影像,並且自動產出標註框、遮罩、深度、姿態等,用來擴增資料集、強化模型在罕見場景的穩定性。NVIDIA 就公開描述了以模擬資料→訓練/微調→部署的整體工作流程,並把它視為現代視覺化 AI 開發的重要路徑。

第二步:標註(Annotation)
多數監控應用在一開始仍以「監督式學習」為主,也就是你給影像、也給正確標籤(label)。而標籤的型態決定了模型能學到什麼:
標註「框(bounding box)」:模型學會偵測人車、計數、區域入侵。
標註「多幀連續的框/ID」:模型才有機會學會追蹤、路徑、停留時間。
標註「骨架/姿態」:模型才可能做跌倒、打架、危險動作。
標註「事件起訖時間」:模型才可能做行為辨識與事件偵測。
標註品質往往比演算法更決定成敗。以 COCO 的資料製作為例,研究團隊採用了分階段標註與驗證的流程,其目的就是在大量資料下維持一致性與可用性。換到監控現場,道理一樣,你如果「越線」的定義不清楚、禁區週界經常變、不同的標註人員對「徘徊」的定義不一致,最後模型學到的就只是一團含糊的平均值,上線後自然各種誤報。
一套AI監控系統最基礎的能力來自物件的偵測,用來將人、車、機車或包裹從畫面中區分出來,讓影像具備可被理解的結構。接著,透過追蹤機制,系統才能在連續影像中維持同一目標的一致性,即使目標在多個畫面之間移動,甚至跨越不同鏡頭,仍能被視為同一個目標。在此之上,影像分析才會進一步嘗試理解行為與事件,例如越線、進入禁區、長時間滯留、群聚、奔跑或倒地。這些判斷不再只是「看見什麼」,而是牽涉到時間、位置與行為模式的綜合判斷。其中,異常偵測被普遍認為是難度最高的一類應用,原因在於異常行為本身難以被完整定義,也缺乏足量且一致的標註資料,再加上實際場域中事件分佈多半零星出現,出現頻率極低,使得這類模型在學術研究與產業實務中都面臨不小挑戰。

第三步:訓練方式
另外,談到訓練,幾乎所有監控影像 AI 的問題,最後都會回到資料來源本身。實務經驗顯示,最具價值的資料往往來自實際部署場域的監視器影像,而不是示範用或理想化的測試畫面。鏡頭高度、焦段選擇、逆光背光、地面材質、雨或霧的情境、夜間照明配置、人流與車流的密度,甚至人員的制服樣式,都會深刻影響模型對畫面的判讀方式。視覺模型對資料分佈極為敏感,因此模型在倉儲或工廠環境中訓練完成後,移轉至車站或醫療場域時效果明顯下降,並不是少見的失誤,而是 領域偏移(domain shift) 與 資料漂移(data drift) 在實務中的典型表現。
為了建立基本能力,產業界普遍會搭配公開資料集進行前期訓練,讓模型先具備對常見物件與一般場景的辨識能力,再透過實際場域的資料進行微調。像 COCO 這類大型資料集,長期被用作物件偵測與影像分割的基準,其價值在於提供一致且多樣的視覺樣本,協助模型建立通用的視覺理解能力,而不是直接對應監控應用的最終需求。當實際資料不足,或某些情境本身極為罕見時,合成資料與數位孿生便成為重要的補充方式。透過模擬環境生成影像並同步產出精準標註,能加速模型在特定場景下的學習與驗證,這類做法已逐漸成為視覺 AI 開發流程中的重要一環。
訓練方式不只一種,從「重標註」走向「弱監督」與「主動學習」
弱監督(Weakly Supervised Learning)或稱監督式學習:當你只標出有異常發生的片段,不逐幀逐秒標細節。
在異常偵測這類任務,逐幀逐秒標註成本高到不合理,因此研究界提出用弱標籤訓練:你只需要標「這一個片段有沒有異常」,不用標異常發生在哪一秒,透過多重實例學習(MIL)等方法去學習異常區段的位置與分數。這條路線在監控異常偵測領域是非常代表性的方向之一。
主動學習(Active Learning):把錢花在「最值得標」的影像上。
標註永遠是成本黑洞,所以業界常做的不是「把所有影像都標完」,而是先訓練一版模型,讓模型去挑出它最不確定、最容易錯的樣本(例如逆光、人群遮擋、雨天夜間反光),再把這些樣本送回去標註、再訓練下一版,形成迭代閉環。這就是主動學習 在視覺影像專案裡常見的落地方式,用更少的標註,換更快的性能提升。
而在多數監控專案的初期階段,監督式學習仍是最常見的作法。影像與正確答案會同時提供給模型,而標註形式的選擇,幾乎直接影響模型能夠學到的能力範圍。僅有方框標註時,模型通常只能完成基本的人車偵測與區域入侵判斷;當標註進一步包含多幀一致的身分資訊,模型才有機會去理解動線與停留時間;如果加入姿態或骨架資料,跌倒或危險動作的辨識才具備實際可行性。而當事件起訖時間被清楚標示,模型才能建立較完整的行為與事件理解能力。實務經驗一再顯示,標註品質對結果的影響,往往超過演算法本身。正如 COCO 資料集在製作過程中採用分階段標註與反覆驗證,其目的正是為了在大規模資料下維持一致性。回到監控現場,若越線定義模糊、禁區邊界頻繁變動,或不同標註人員對行為的理解存在落差,最終反映在系統上的,往往就是持續不斷的誤報。

隨著應用情境愈趨複雜,產業界也開始調整訓練策略。在異常偵測等場景中,逐秒標註不僅成本高昂,也難以長期維持,因此研究界與實務端逐漸採用弱監督學習,只需標示影片是否包含異常,再透過 Multiple Instance Learning 等方法推估異常發生的位置與程度。這類技術的價值,在於讓系統能在標註資源有限的情況下,仍持續改善辨識能力。另一方面,主動學習也逐漸被納入實務流程之中,透過先行訓練模型,再由模型挑選最不確定、最容易出錯的樣本進行標註,使有限的標註資源能集中用在真正影響效能的影像上,進而加速整體迭代效率。
驗證與指標
到了驗證階段,監控影像 AI 面臨的考驗,往往與學術研究截然不同。雖然 mAP 等指標在研究領域中具有參考價值,但在實際場域裡,誤報才是真正影響系統接受度的關鍵因素。例如電子圍籬最常發生的,例如樹影晃動、雨天反光、動物、落葉、巡檢人員被誤判為異常,都可能迅速消耗使用者對系統的信任。因此,實務驗證往往必須涵蓋日夜切換、天候變化、鏡頭角度差異、人車密度與壓縮設定,甚至將特定作業時段一併納入測試範圍,才能貼近真實使用情境。
監控 AI 上線後必須面對「資料漂移」與持續維運
系統正式上線後,真正的挑戰才逐漸浮現。燈具更新、鏡頭老化、焦距偏移、植栽生長、動線調整,甚至季節帶來的服裝分佈改變,都可能讓實際影像逐步偏離原本的訓練資料,造成所謂的「資料漂移」。也因此,成熟的導入策略往往會將監控影像 AI 視為需要長期維運的系統,透過持續監測模型表現,視情況進行再訓練、版本更新與重新測試。這正是 MLOps 所強調的核心精神,也直接關係到系統能否在多年運作後,仍維持穩定且可用的效能。
監控影像 AI 的訓練與導入,更像是一個小學生長時間學習的過程,過程涵蓋了資料蒐集、清理、標註、訓練、驗證、部署、監控與再蒐集等多個環節。合成資料與弱監督學習正在協助產業降低標註成本與資料稀缺所帶來的限制,而主動學習與 MLOps,則讓監控影像 AI 能夠從概念驗證階段,逐步走向可長期維運的基礎設施。
註:
MLOps : Machine Learning Operations 的縮寫,指的是一套用來管理、部署與維運 AI 模型的實務方法。
mAP : mean Average Precision 的縮寫,是影像辨識領域常用的一種準確度評估指標,特別用來衡量「物件偵測」模型判斷得準不準。
Domain Shift(領域偏移):指模型訓練資料與實際部署環境之間出現差異,導致辨識效果下降的現象。
Data Drift(資料漂移):資料漂移描述的是系統上線後,因環境變化使輸入資料分佈逐漸偏離原本訓練資料的情況。 |
| |
| ※本文圖文非經授權不得轉載,洽詢授權,請E-Mail至contact@aimag.tw[ iDS智慧安防雜誌聲明 ]※ |
| |
| |
|
| |