model_name: "cnn_audio_classifier"

mel_spectrogram_param:
  sample_rate: 8000
  n_fft: 512
  win_length: 200
  hop_length: 80
  f_min: 10
  f_max: 3800
  window_fn: hamming
  n_mels: 80

conv2d_block_param_list:
  - batch_norm: true
    in_channels: 1
    out_channels: 4
    kernel_size: 3
    stride: 1
    dilation: 3
    activation: relu
    dropout: 0.1
  - in_channels: 4
    out_channels: 4
    kernel_size: 5
    stride: 2
    dilation: 3
    activation: relu
    dropout: 0.1
  - in_channels: 4
    out_channels: 4
    kernel_size: 3
    stride: 1
    dilation: 2
    activation: relu
    dropout: 0.1

cls_head_param:
  input_dim: 108
  num_layers: 2
  hidden_dims:
    - 128
    - 32
  activations: relu
  dropout: 0.1
  num_labels: 3