| 富萱科技總經理 洪昆裕,談安防AI 2.0 x 從物件辨識走向具可解釋性的安防大模型 |
| |
|
| |
|
 |
186 |
|
| 最後更新時間:5月 | 30日 , 2026 |
|
| |
 |
 |
|
|
| 近年來,AI 影像辨識技術隨著生成式AI的技術蓬勃發展,也加速進入了製造、交通、工安及營運管理等場域,監控系統的角色也正在從單純的影像記錄與事件回放,逐步走向主動偵測、看懂影像及輔助決策。長期專注於視覺辨識技術開發的富萱科技,近年來持續投入第一代影像辨識模型與第二代安防大模型的整合應用,將 AI 從「看得到物件」邁向「看得懂情境」,協助終端用戶降低人力負擔,提升事件管理的判斷效率。 |
| |

富萱科技總經理洪昆裕在專訪中指出,第一代 AI 影像辨識技術主要建立在 object detection,也就是物件偵測的基礎上。這一代技術最常被聯想到的模型包括 YOLO 類型的可訓練模型,透過客戶現場資料、影像資料標註與模型訓練,讓系統能夠辨識人、車、機車、火焰、安全帽、背心等特定物件。在安防領域中,人與車是最常見的辨識目標,也因此衍生出入侵偵測、警戒線、車流分析、車型車色辨識、車牌辨識與智慧工安等多種應用。
AI 1.0從物件偵測到骨架分析
洪昆裕解釋道,相較於早期非 AI 的 IVS 或傳統 Computer Vision 的做法,第一代 AI 影像辨識最大的改變,在於系統可以透過訓練資料找出指定物件,並藉由模型持續優化辨識能力。除了物件偵測之外,第一代技術也逐步演進到骨架分析與關鍵點偵測。透過人體關鍵點,系統可以判斷人的姿態與動作,進而應用在跌倒偵測、抽菸偵測、打架偵測、走路看手機等行為辨識場景。
以交通應用的部分來看,第一代 AI 已經有能力處理車流分析、逆向行駛、車道判斷、車型車色辨識與車牌辨識等任務。由於車輛屬於剛性物體,只要資料量足夠,模型相對容易訓練,而真正影響系統表現的關鍵,主要看的是軌跡判斷、事件規則與演算法的經驗。
雖然第一代 AI 讓監控系統具備更多辨識能力,但洪昆裕也坦言,第一代技術的在於「只是在找物件」。系統可以知道畫面中出現人、車、火焰或武器,但它無法真正看懂影像中的事件軌跡。例如持武器偵測可以辨識出疑似槍枝,但第一代模型本身無法判讀畫面中的人究竟是在搶劫、拍片、展示玩具槍或其他情境,同樣地,車不讓人也是第一代技術較難處理的題目。洪昆裕說明,由於多數監控影像仍屬 2D 視覺,系統不容易準確判斷深度關係,無法穩定理解行人與車輛誰在前、誰在後,也容易在責任判斷上出現誤差。
第一代技術另一項挑戰在於相當依賴訓練時的場景。如果第一代的AI辨識要做到高準確率,通常需要大量現場資料、標註與模型訓練,經過在特定場景中訓練後,辨識可以做到很準確,但換到另一支攝影機、另一個角度或另一種環境,可能就需要重新調整。洪昆裕表示,這類專案很難做到買回去立刻上線,往往需要根據現場角度、光線、背景與行為樣態再一次進行演算法微調。而通常系統整合商與終端用戶在辨識率評估上,誤報與漏報會是最重要的兩項指標,有些環境寧可誤報多一點,也要降低漏報,有些場域則要求誤報率必須極低。實務上,兩者通常需要透過模型與演算法調校取得平衡。

AI 2.0讓系統開始看懂影像中的場景
洪昆裕表示,第二代模型通常稱之為 Video Language Model (VLM)或具備影像語意理解能力的模型,重點在於它可以看懂影像,而且可以解釋畫面中發生了什麼事,進一步把影像轉化為文字、摘要與可供查詢的資料。例如在入侵偵測場景中,第一代技術只能判斷有人進入警戒區;第二代模型則可進一步描述畫面中人物的衣著、移動方向、行為狀態與事件可能發生的軌跡與脈絡。如果AI模型判斷有人攻擊保全、有人持物引發群眾逃竄,系統就能根據事件嚴重程度觸發不同層級的警報與後續處置決策。
洪昆裕指出,可解釋性是第二代AI 的關鍵,因為只有系統看得懂情境,才有機會協助人做決策。當影像能被轉成文字資料後,也才能夠進入資料庫,使用者便可透過自然語言查詢,例如詢問「幾點幾分是否有人闖入」、「紅色車輛從哪個路口出現」、「昨天收銀台前是否排隊過長」等問題。

營運管理成為新應用重點
富萱科技目前已經將第二代模型導入智慧工安、石化廠巡檢、半導體作業與吊掛作業等場域。例如在石化廠場域中,巡檢人員可透過 Body Cam 錄製現場畫面,模型再從畫面中依照指定的任務判斷環境中有沒有防火毯、火花、安全帽、警戒線及其他工安規範。這類型的應用重點主要放在協助判斷整段巡檢過程的畫面中是不是符合安全規定並產生文字敘述說明。
洪昆裕認為,第二代模型的價值會逐漸從單純的影像監控延伸到營運管理。零售、餐飲、交通、工廠與政府單位都可能透過既有攝影機資料建立自己的營運管理平台。未來 AI 可協助企業觀察排隊情形、服務流程、員工行為、異常事件與現場規範是否被遵守,再由人員進行最終判斷與管理決策,這樣的AI才有辦法讓監控畫面產生價值。
洪昆裕表示,政府機關、半導體廠、石化廠與大型企業,通常不希望影像資料上傳雲端,因此他會建議這些場域採用主機或 AI Box 方式規劃設置,第二代大模型需要較高算力,因此短期內還比較難直接放進一般 IP camera 或 NVR 單晶片架構中,實務上會以 PC-based 主機或 AI Box 為主要載體。
以富萱科技自己的系統架構上,採取第一代與第二代並行的設計。第一道即時事件偵測仍然是由第一代邊緣 AI 偵測來負責,處理秒級告警需求,例如人員進入、物件出現或特定行為觸發,第二道則由第二代大模型負責較更深入的場景事件分析。這樣的設計可以避免大模型長時間耗費大量算力,也能在有人或事件出現時,再截取影片片段交由模型理解,兼顧成本與效能。洪昆裕表示,AI未來如果要普及到社區、民生或較大量的場域,雲端模式仍有發展空間,但對於重視隱私資料安全或是產業,地端的部署設置仍然會是主要的選項。
洪昆裕強調,AI 在監控領域真正的價值,不只是提高辨識率,而是讓使用者從大量影像資料中更快找到關鍵資訊。過去警員辦案或交通單位調閱影像,需要花大量時間進入系統、輸入條件、逐段尋找,未來如果 VLM 能在後端協助整理影像內容,人員就能透過自然語言快速查詢,將時間從「找資料」轉向「做判斷」。洪昆裕再受訪尾聲時表示,AI會隨著不同產業開始理解大模型在影像場域中的應用潛力,慢慢的讓監控系統從被動的影像記錄設備,逐步成為企業、政府與場域管理者的智慧營運平台,這會是安防產業所樂見的趨勢與未來方向。 |
| |
| ※本文圖文非經授權不得轉載,洽詢授權,請E-Mail至contact@aimag.tw[ iDS智慧安防雜誌聲明 ]※ |
| |
| |
|
| |