Diplomová práce · 2025 Nesupervizovaná FEL ČVUT

FlowSeg4D: Nesupervizovaná 4D panoptická segmentace

Online framework pro 4D panoptickou segmentaci LiDAR scén při řízení, který nevyžaduje žádná anotovaná trénovací data. Kombinuje sémantickou segmentaci, odhad scene flow a temporální clusterování k produkci konzistentních ID instancí pro sledovaní v čase — konkuruje řízeným metodám na benchmarcích SemanticKITTI a nuScenes.

Číst práci Zdrojový kód

46,9LSTQ · SemanticKITTI val

52,2LSTQ · nuScenes val

0Označených trénovacích vzorků

OnlineRežim zpracování

Metoda

4D panoptická segmentace rozšiřuje panoptickou segmentaci na temporální sekvence — každému bodu musí být přiřazena sémantická třída i konzistentní identita instance napříč snímky. FlowSeg4D toho dosahuje bez jakýchkoli labelů kombinací tří komponent.

Diagram úlohy: sémantická a instanční segmentace kombinované do 4D panoptické segmentace

Úloha 4D panoptické segmentace

Pipeline: LiDAR snímky zpracované přes WaffleIron a scénový tok do detekce objektů, asociace a panoptického výstupu

Pipeline FlowSeg4D — sémantická segmentace (žlutá), scene flow (béžová), asociace instancí (červená)

Sémantická segmentace

WaffleIron WI-48-768, předtrénovaný nesupervizovanou metodou ScaLR na čtyřech typech LiDAR senzorů pomocí příznaků DINOv2. Použití linear probing na cílové datové sadě poskytuje třídní labely při minimálních nárocích na anotace.

Odhad scene flow

Let-It-Flow — nesupervizovaný optimalizační model vybraný pro nízkou chybu na zranitelných účastnících silničního provozu (chodci, cyklisté). Vektory scene flow jsou předpočítány a použity modulem asociace k aktualizaci pozic clusterů před přiřazením.

Asociace instancí

Modul clusterování a Hungarian matching, který propojuje objektové clustery napříč snímky. Long-term varianta udržuje temporální okno předchozích snímků a využívá WaffleIron embeddingy spolu s prostorovou vzdáleností k řešení nejednoznačných přiřazení.

Pipeline asociace

Byly vyvinuty a vyhodnoceny čtyři postupně vylepšované strategie asociace. Všechny sdílejí stejný krok clusterování; liší se způsobem přiřazování clusterů napříč snímky.

Naive

Clusterování sémantických bodů popředí dle třídy (ALPINE / DBSCAN / HDBSCAN)
Hungarian matching mezi aktuálním a předchozím snímkem s využitím vzdálenosti středů clusterů jako ceny
Přijetí přiřazení, pokud vzdálenost < 3,5 m → přiřadit stejné ID instance

Rychlá a srozumitelná, ale omezená na jeden předchozí snímek a potýká se s okluzemi.

Naive + scene flow

Posun středů clusterů o průměrný vektor scene flow před přiřazením
Jinak shodná s naivní metodou

Zlepšuje výsledky na SemanticKITTI, ale zhoršuje nuScenes — nejefektivnější při nepřesných sémantických labelech.

Long-term okno Nejlepší

Udržovat okno N předchozích snímků (optimum: 6)
Reprezentovat každý cluster průměrným WaffleIron embeddingem
Matice nákladů = vzdálenost středů + nesimilarita příznaků (1 − cosinova podobnost), vážená α = 0,1
Hungarian matching; přijmout pouze při splnění obou podmínek — vzdálenost (< 4,5 m) a práh příznaků (nesimilarita < 0,4)

Konzistentní zlepšení oproti naivní metodě na všech datových sadách a metodách clusterování.

Long-term + scénový tok

Aktualizovat středy clusterů předchozího snímku průměrným scene flow před přiřazením
Jinak shodná s metodou Long-term okno

Minimální přínos oproti samotné long-term variantě; scene flow je již zachycen v ceně embeddingu.

Diagram pipeline asociace: detekce objektů (clusterování, medián, cosinova podobnost) vedoucí do přiřazování ID instancí (matice nákladů, maďarské přiřazení, cache objektů)

Kompletní asociační pipeline — detekce objektů (vlevo) předává středy clusterů a embeddingy do modulu pro přiřazování ID jednotlivých instancí (vpravo)

SemanticKITTI

FlowSeg4D na SemanticKITTI — sémantická (nahoře) a panoptická (dole) segmentace, rychlost 10×

Vývoj metody

DBSCAN dosahuje nejlepších výsledků na SemanticKITTI; HDBSCAN na nuScenes. S_cls je dán modelem na sémantickou segmentaci a nemění se mezi variantami asociace.

SemanticKITTI — validace

Metoda	LSTQ	S_asc	S_cls
Naive	42,1	31,8	55,8
+ scene flow	44,7	35,9	55,8
+ long. okno	46,9	39,5	55,8
+ LO + sc. flow	46,9	39,5	55,8

nuScenes — validace

Metoda	LSTQ	S_asc	S_cls
Naive	50,4	37,0	68,7
+ scene flow	47,8	33,2	68,7
+ long. okno	52,2	39,7	68,7
+ LO + sc. flow	52,2	39,7	68,7

Srovnání se stavem umění

Všechny metody jsou trénovány s anotacemi na úrovni bodů. FlowSeg4D (označen ✓) nepoužívá žádné anotace.

SemanticKITTI — validace

Metoda	Unsup.	LSTQ	S_asc	S_cls
4D-PLS ¹		62,7	65,1	60,5
4D-StOP ²		67,0	74,4	60,3
Mask4D ³		71,4	75,4	67,5
Mask4Former ⁴		70,5	74,3	66,9
4D-Former ⁵		73,9	80,9	67,6
Naše (LO)	✓	46,9	39,5	55,8

SemanticKITTI — testování

Metoda	Unsup.	LSTQ	S_asc	S_cls
4D-PLS ¹		56,9	56,4	57,4
CIA ⁶		63,1	65,7	60,6
4D-StOP ²		63,9	69,5	58,8
Mask4D ³		64,3	66,4	62,2
Mask4Former ⁴		68,4	67,3	69,6
Naše (LO+ST)	✓	39,3	29,9	51,5

Aygun et al., 4D Panoptic LiDAR Segmentation, CVPR 2021
Kreuzberg et al., 4D-StOP: Panoptic Segmentation of 4D LiDAR Using Spatio-Temporal Object Proposal Generation and Aggregation, ECCV Workshops 2023
Marcuzzi et al., Mask4D: End-to-End Mask-Based 4D Panoptic Segmentation for LiDAR Sequences, RA-L 2023
Yilmaz et al., Mask4Former: Mask Transformer for 4D Panoptic Segmentation, ICRA 2024
Athar et al., 4D-Former: Multimodal 4D Panoptic Segmentation, CoRL 2023
Marcuzzi et al., Contrastive Instance Association for 4D Panoptic Segmentation Using Sequences of 3D LiDAR Scans, RA-L 2022

Kvalitativní výsledky

Sémantická segmentace SemanticKITTI: ground truth (nahoře) vs predikce WaffleIron (dole)

Sémantická segmentace — ground truth (horní řada) vs lineární sondování WaffleIron (dolní řada) napříč 5 snímky

Srovnání instanční segmentace: ALPINE, DBSCAN, HDBSCAN napříč snímky

Asociace instancí (long-term + scénový tok) — ALPINE (řada 1), DBSCAN (řady 2–3), HDBSCAN (řada 4) napříč 5 snímky. Konzistentní barva = konzistentní identita instance.

Temporální konzistence instancí

10 po sobě jdoucích snímků — každý barevný shluk je sledovaná instance; konzistentní barva napříč snímky indikuje správnou temporální asociaci.

Mřížka 10 snímků zobrazující temporálně konzistentní sledování instancí na SemanticKITTI

Případy selhání

Každá metoda clusterování vykazuje charakteristické typy selhání. ALPINE (řada 1) nadměrně segmentuje; DBSCAN (řada 2) slučuje blízké clustery; HDBSCAN (řada 3) má potíže s řídkými objekty.

Generalizace napříč datovými sadami — PONE

FlowSeg4D byl aplikován na datovou sadu PONE bez přetrénování nebo doladění, s využitím modelů předtrénovaných na SemanticKITTI a nuScenes. Jak sémantické, tak instanční výstupy se přenesou bez adaptace.

FlowSeg4D na PONE — sémantická (vlevo) a panoptická (vpravo) segmentace, bez přetrénování

Sémantická segmentace datové sady PONE: model WaffleIron SemanticKITTI (nahoře) vs model nuScenes (dole)

Sémantická segmentace na PONE — model SemanticKITTI (horní řada) vs model nuScenes (dolní řada) napříč 3 snímky

Instanční segmentace datové sady PONE: long-term asociace s ALPINE, DBSCAN, HDBSCAN

Asociace instancí (long-term) na PONE — ALPINE (řada 1), DBSCAN (řada 2), HDBSCAN (řada 3)

Diplomová práce na FEL ČVUT, 2025.

Číst práci Zdrojový kód ← Všechny projekty