An End-to-End Audio Classification System based on Raw Waveforms and Mix-Training Strategy

Dec 23, 2019 3 min read Time Series

Go to Project Site

1. どんなもの？

Audio ClassificationはGoogleのBottleneck featureを使った識別，Handcrafted featureを使った識別がBaselineだった
Bottleneckは情報のlostが，Handcraftedは抽出の困難さが問題
end-to-endな周波数特徴の抽出，識別を可能に

1D CNNで時間方向にdownsamplingをかけることで，周波数特徴を抽出
FFTをNNに任せてるイメージで，識別に適した周波数特徴を抽出してくれることを期待
最終的には，$C \times 1 \times T$ (channel, 1, time)のfeature mapをtransposeして，$1 \times C \times T$ (1, channel, time)の画像に

$$ \tilde{x}_k = \alpha x_i + (1-\alpha) x_j $$

$$ \tilde{y}_k = sign(y_i + y_j) $$

$$ L=-\frac{1}{K} \sum_{k, n} \left(1-\tilde{y}_{k n}\right) \log \left(1-t_{k n}\right)+\tilde{y}_{k n} \log t_{k n} $$

$$ \mathbf{t_k} = f_\theta (\tilde{x}_k) = [ t_{k1}, t_{k2}, …, t_{kN} ] $$

Yu, C., Barsim, K. S., Kong, Q., & Yang, B. (2018). Multi-level Attention Model for Weakly Supervised Audio Classification. Retrieved from http://arxiv.org/abs/1803.02353
Zhang, H., Cisse, M., Dauphin, Y. N., & Lopez-Paz, D. (2017). mixup: Beyond Empirical Risk Minimization. Retrieved from https://arxiv.org/abs/1710.09412

My research interests are in computer vision, especially in anomaly detection and XAI.