Diplomová práce · 2025 Nesupervizovaná FEL ČVUT

FlowSeg4D: Nesupervizovaná 4D panoptická segmentace

Online framework pro 4D panoptickou segmentaci LiDAR scén při řízení, který nevyžaduje žádná anotovaná trénovací data. Kombinuje sémantickou segmentaci, odhad scene flow a temporální clusterování k produkci konzistentních ID instancí pro sledovaní v čase — konkuruje řízeným metodám na benchmarcích SemanticKITTI a nuScenes.

46,9LSTQ · SemanticKITTI val
52,2LSTQ · nuScenes val
0Označených trénovacích vzorků
OnlineRežim zpracování

Metoda

4D panoptická segmentace rozšiřuje panoptickou segmentaci na temporální sekvence — každému bodu musí být přiřazena sémantická třída i konzistentní identita instance napříč snímky. FlowSeg4D toho dosahuje bez jakýchkoli labelů kombinací tří komponent.

Diagram úlohy: sémantická a instanční segmentace kombinované do 4D panoptické segmentace

Úloha 4D panoptické segmentace

Pipeline: LiDAR snímky zpracované přes WaffleIron a scénový tok do detekce objektů, asociace a panoptického výstupu

Pipeline FlowSeg4D — sémantická segmentace (žlutá), scene flow (béžová), asociace instancí (červená)

Sémantická segmentace

WaffleIron WI-48-768, předtrénovaný nesupervizovanou metodou ScaLR na čtyřech typech LiDAR senzorů pomocí příznaků DINOv2. Použití linear probing na cílové datové sadě poskytuje třídní labely při minimálních nárocích na anotace.

Odhad scene flow

Let-It-Flow — nesupervizovaný optimalizační model vybraný pro nízkou chybu na zranitelných účastnících silničního provozu (chodci, cyklisté). Vektory scene flow jsou předpočítány a použity modulem asociace k aktualizaci pozic clusterů před přiřazením.

Asociace instancí

Modul clusterování a Hungarian matching, který propojuje objektové clustery napříč snímky. Long-term varianta udržuje temporální okno předchozích snímků a využívá WaffleIron embeddingy spolu s prostorovou vzdáleností k řešení nejednoznačných přiřazení.

Pipeline asociace

Byly vyvinuty a vyhodnoceny čtyři postupně vylepšované strategie asociace. Všechny sdílejí stejný krok clusterování; liší se způsobem přiřazování clusterů napříč snímky.

1

Naive

  1. Clusterování sémantických bodů popředí dle třídy (ALPINE / DBSCAN / HDBSCAN)
  2. Hungarian matching mezi aktuálním a předchozím snímkem s využitím vzdálenosti středů clusterů jako ceny
  3. Přijetí přiřazení, pokud vzdálenost < 3,5 m → přiřadit stejné ID instance

Rychlá a srozumitelná, ale omezená na jeden předchozí snímek a potýká se s okluzemi.

2

Naive + scene flow

  1. Posun středů clusterů o průměrný vektor scene flow před přiřazením
  2. Jinak shodná s naivní metodou

Zlepšuje výsledky na SemanticKITTI, ale zhoršuje nuScenes — nejefektivnější při nepřesných sémantických labelech.

3

Long-term okno Nejlepší

  1. Udržovat okno N předchozích snímků (optimum: 6)
  2. Reprezentovat každý cluster průměrným WaffleIron embeddingem
  3. Matice nákladů = vzdálenost středů + nesimilarita příznaků (1 − cosinova podobnost), vážená α = 0,1
  4. Hungarian matching; přijmout pouze při splnění obou podmínek — vzdálenost (< 4,5 m) a práh příznaků (nesimilarita < 0,4)

Konzistentní zlepšení oproti naivní metodě na všech datových sadách a metodách clusterování.

4

Long-term + scénový tok

  1. Aktualizovat středy clusterů předchozího snímku průměrným scene flow před přiřazením
  2. Jinak shodná s metodou Long-term okno

Minimální přínos oproti samotné long-term variantě; scene flow je již zachycen v ceně embeddingu.

Diagram pipeline asociace: detekce objektů (clusterování, medián, cosinova podobnost) vedoucí do přiřazování ID instancí (matice nákladů, maďarské přiřazení, cache objektů)

Kompletní asociační pipeline — detekce objektů (vlevo) předává středy clusterů a embeddingy do modulu pro přiřazování ID jednotlivých instancí (vpravo)

SemanticKITTI

FlowSeg4D na SemanticKITTI — sémantická (nahoře) a panoptická (dole) segmentace, rychlost 10×

Vývoj metody

DBSCAN dosahuje nejlepších výsledků na SemanticKITTI; HDBSCAN na nuScenes. S_cls je dán modelem na sémantickou segmentaci a nemění se mezi variantami asociace.

SemanticKITTI — validace

MetodaLSTQS_ascS_cls
Naive42,131,855,8
+ scene flow44,735,955,8
+ long. okno46,939,555,8
+ LO + sc. flow46,939,555,8

nuScenes — validace

MetodaLSTQS_ascS_cls
Naive50,437,068,7
+ scene flow47,833,268,7
+ long. okno52,239,768,7
+ LO + sc. flow52,239,768,7

Srovnání se stavem umění

Všechny metody jsou trénovány s anotacemi na úrovni bodů. FlowSeg4D (označen ✓) nepoužívá žádné anotace.

SemanticKITTI — validace

MetodaUnsup.LSTQS_ascS_cls
4D-PLS 162,765,160,5
4D-StOP 267,074,460,3
Mask4D 371,475,467,5
Mask4Former 470,574,366,9
4D-Former 573,980,967,6
Naše (LO)46,939,555,8

SemanticKITTI — testování

MetodaUnsup.LSTQS_ascS_cls
4D-PLS 156,956,457,4
CIA 663,165,760,6
4D-StOP 263,969,558,8
Mask4D 364,366,462,2
Mask4Former 468,467,369,6
Naše (LO+ST)39,329,951,5
  1. Aygun et al., 4D Panoptic LiDAR Segmentation, CVPR 2021
  2. Kreuzberg et al., 4D-StOP: Panoptic Segmentation of 4D LiDAR Using Spatio-Temporal Object Proposal Generation and Aggregation, ECCV Workshops 2023
  3. Marcuzzi et al., Mask4D: End-to-End Mask-Based 4D Panoptic Segmentation for LiDAR Sequences, RA-L 2023
  4. Yilmaz et al., Mask4Former: Mask Transformer for 4D Panoptic Segmentation, ICRA 2024
  5. Athar et al., 4D-Former: Multimodal 4D Panoptic Segmentation, CoRL 2023
  6. Marcuzzi et al., Contrastive Instance Association for 4D Panoptic Segmentation Using Sequences of 3D LiDAR Scans, RA-L 2022

Kvalitativní výsledky

Sémantická segmentace SemanticKITTI: ground truth (nahoře) vs predikce WaffleIron (dole)

Sémantická segmentace — ground truth (horní řada) vs lineární sondování WaffleIron (dolní řada) napříč 5 snímky

Srovnání instanční segmentace: ALPINE, DBSCAN, HDBSCAN napříč snímky

Asociace instancí (long-term + scénový tok) — ALPINE (řada 1), DBSCAN (řady 2–3), HDBSCAN (řada 4) napříč 5 snímky. Konzistentní barva = konzistentní identita instance.

Temporální konzistence instancí

10 po sobě jdoucích snímků — každý barevný shluk je sledovaná instance; konzistentní barva napříč snímky indikuje správnou temporální asociaci.

Případy selhání

Každá metoda clusterování vykazuje charakteristické typy selhání. ALPINE (řada 1) nadměrně segmentuje; DBSCAN (řada 2) slučuje blízké clustery; HDBSCAN (řada 3) má potíže s řídkými objekty.

Generalizace napříč datovými sadami — PONE

FlowSeg4D byl aplikován na datovou sadu PONE bez přetrénování nebo doladění, s využitím modelů předtrénovaných na SemanticKITTI a nuScenes. Jak sémantické, tak instanční výstupy se přenesou bez adaptace.

FlowSeg4D na PONE — sémantická (vlevo) a panoptická (vpravo) segmentace, bez přetrénování
Sémantická segmentace datové sady PONE: model WaffleIron SemanticKITTI (nahoře) vs model nuScenes (dole)

Sémantická segmentace na PONE — model SemanticKITTI (horní řada) vs model nuScenes (dolní řada) napříč 3 snímky

Instanční segmentace datové sady PONE: long-term asociace s ALPINE, DBSCAN, HDBSCAN

Asociace instancí (long-term) na PONE — ALPINE (řada 1), DBSCAN (řada 2), HDBSCAN (řada 3)

Diplomová práce na FEL ČVUT, 2025.