Segment Any Anomaly without Training via Hybrid Prompt Regularization

Jun 18, 2023 3 min read Anomaly Detection, Vision Language

Go to Project Site

Segment Any Anomaly without Training via Hybrid Prompt Regularization

Jun 18, 2023 3 min read Anomaly Detection, Vision Language

Go to Project Site

1. どんなもの？

Vision Language Model(VLM)を使ったZeroshot Anomaly Detection

2. 先行研究と比べてどこがすごい？

Zeroshotで異常検知が可能
- 大量の画像・テキストで学習済みのモデルを使用
- 新たに学習を行わない
直接的に異常スコアを算出可能
- WinCLIPはあくまでtext-visual similarity

3. 技術や手法の"キモ"はどこ？

GroudingDINOを使って，異常領域矩形の検出
異常領域矩形をクエリにSegment Anythingで異常領域を算出
算出した異常領域を3つのフィルタリングでRefine
- 対象の面積
- 特徴マップのSaliecncy
- 異常度のTop-k
入力テキストをclass-agnostic，class-specificで組み合わせる

Segment Any Anomaly(SAA)

筆者らが最初に考えたモデル
- GroudingDINOを使って，スコアと異常領域矩形の検出．（入力は画像とテキスト） $\displaystyle \mathcal{R}^B, \mathcal{S} := \mathrm{Generator}(\mathbf{I},\mathcal{T})$
- 異常領域矩形をクエリにSegment Anythingで異常領域を算出 $\displaystyle \mathcal{R} := \mathrm{Refiner}(\mathbf{I}, \mathcal{R}^B)$
- まとめると，SAAでは画像とテキストを入力すると，異常領域とそのスコアが算出される $\displaystyle \mathcal{R}, \mathcal{S} := \mathrm{SAA}(\mathbf{I}, \mathcal{T}_n)$
ここで言語の曖昧性（language ambiguity）という問題
- anomalyなどの抽象的な単語では精度がよくない

SAA+

入力に対する工夫

Anomaly Language Expression as Prompt

言語の曖昧性をなくすために2つの種類のテキストを入力にする
- anomalyなどのclass-agnosticなテキスト
- black holeなどのclass-specificなテキスト $\displaystyle \mathcal{P}^L=\{ \mathcal{T}_{\rm a}, \mathcal{T}_ {\rm s} \}$

フィルタリングでRefine

Anomaly Object Property as Prompt

異常の大きさは対象物（ワーク）よりも小さく，さらに面積値は一定以下であるという制限を設ける $\displaystyle \mathcal{R}^P, \mathcal{S}^P := \mathrm{Filter}(\mathcal{R}, \mathcal{P}^P)$

Anomaly Saliency as Prompt

anomalyなどのテキストはドメインごとにGapがあるので，画像特徴から顕著性が高い箇所だけを引き抜く
- 事前学習済みモデルから特徴マップを抽出し，特徴ベクトル間の内積を算出．その後，N近傍（内積が近い順）との内積を算出し，1から引くことで顕著性にする $\displaystyle \mathbf{s}_{ij} := \frac{1}{N}\sum\limits_{\mathbf{f}\in N_p(\mathbf{f}_{ij})}(1- \langle \mathbf{f}_{ij},\mathbf{f} \rangle)$
- 元の領域と顕著性スコアを掛け合わせ $\displaystyle \mathcal{P}^{S} := \left\{ \exp(\frac{\sum_{i j}\mathbf{r}_{i j}\mathbf{s}_{i j}}{\sum_{i j}\mathbf{r}_{i j}}) \quad | \quad \mathbf{r} \in \mathcal{R}^P \right\}$
- SAAのScoreと↑のScoreを掛け合わせ $\displaystyle \mathcal{S}^{S} := \left\{ p \cdot s \quad | \quad p \in \mathcal{P}^{S}, s \in \mathcal{S}^P \right\}$

Anomaly Confidence as Prompt

異常領域は多くてもこのくらいだろうという制限をかける
- ↑で算出されたスコアをもとに面積値フィルタリングしたmaskからTop-k $\displaystyle \mathcal{R}^C, \mathcal{S}^C := \mathrm{Top}_K(\mathcal{R}^P,\mathcal{S}^S)$
- 最終的な異常度を算出 $\displaystyle \mathbf{A}_{ij} := \frac{ \sum_{\mathbf{r}^C \in \mathcal{R}^C} \mathbf{r}^C_{i j} \cdot s^C}{ \sum_{\mathbf{r}^C \in \mathcal{R}^C} \mathbf{r}^C_{i j}}$

4. どうやって有効だと検証した？

VisA, MVTec-AD, MTD, KSDD2で実験
評価指標は
- max-F1-pixel ($F_p$): 最適なしきい値を設定した際の最高のピクセル単位のF値（WinCLIPが採用）
- max-F1-region ($F_r$): 最適なしきい値を設定した際に予測マスクと正解マスクが一定値以上オーバーラップしているかのF値（一定値は0.6を採用，この論文独自）
- SAA+はWinCLIPやSAAより高い精度で異常検知可能

5. 議論はあるか？

Zeroshotでそこそこの性能が出ているが，検査画像や検査用テキストがWeb上にいっぱいあると思えないので，追加で正常/異常を覚える機構は必要
- 独自データでやった感じ，複雑な形状・構成の画像はその複雑な形状や部品構成で異常判定してしまう

6. 次に読むべき論文はある？

Cao, Y., Xu, X., Sun, C., Cheng, Y., Du, Z., Gao, L., & Shen, W. (2023). Segment Any Anomaly without Training via Hybrid Prompt Regularization. https://arxiv.org/abs/2305.10724
Liu, S., Zeng, Z., Ren, T., Li, F., Zhang, H., Yang, J., Li, C., Yang, J., Su, H., Zhu, J., & others. (2023). Grounding dino: Marrying dino with grounded pre-training for open-set object detection. ArXiv Preprint ArXiv:2303.05499.

中塚俊介

R&D Engineer

My research interests are in computer vision, especially in anomaly detection and XAI.

Segment Any Anomaly without Training via Hybrid Prompt Regularization

Segment Any Anomaly without Training via Hybrid Prompt Regularization

1. どんなもの？

2. 先行研究と比べてどこがすごい？

3. 技術や手法の"キモ"はどこ？

Segment Any Anomaly(SAA)

SAA+

入力に対する工夫

Anomaly Language Expression as Prompt

フィルタリングでRefine

Anomaly Object Property as Prompt

Anomaly Saliency as Prompt

Anomaly Confidence as Prompt

4. どうやって有効だと検証した？

5. 議論はあるか？

6. 次に読むべき論文はある？

中塚 俊介

R&D Engineer

中塚俊介