python source code of feature_extraction

Project: Sound-Recognition-Tutorial (GitHub Link)

Sound-Recognition-Tutorial-master
- saved_model
- LICENSE
- esc10_extraction.py
- models.py
- feature_extraction.py
- data
  - esc10
    - audio
      - Helicopter
        3-154926-B.ogg
        1-172649-B.ogg
        3-150979-B.ogg
        2-37806-A.ogg
        5-177957-C.ogg
        1-172649-E.ogg
        2-188822-D.ogg
        1-172649-C.ogg
        5-177957-B.ogg
        1-181071-A.ogg
        1-172649-F.ogg
        2-37806-D.ogg
        5-220955-A.ogg
        2-188822-C.ogg
        4-161579-B.ogg
        1-172649-A.ogg
        4-125929-A.ogg
        4-175000-B.ogg
        1-181071-B.ogg
        4-161579-A.ogg
        5-177957-D.ogg
        3-150979-C.ogg
        2-37806-C.ogg
        3-68630-A.ogg
        5-205898-A.ogg
        3-68630-C.ogg
        2-188822-A.ogg
        4-175000-A.ogg
        4-193480-A.ogg
        5-177957-E.ogg
        2-37806-B.ogg
        1-172649-D.ogg
        2-188822-B.ogg
        5-177957-A.ogg
        4-193480-B.ogg
        3-150979-A.ogg
        3-68630-B.ogg
        4-175000-C.ogg
        3-154926-A.ogg
        5-191131-A.ogg
      - Dog
        1-30344-A.ogg
        2-122104-A.ogg
        2-122104-B.ogg
        2-114280-A.ogg
        4-207124-A.ogg
        1-97392-A.ogg
        1-30226-A.ogg
        5-203128-B.ogg
        5-213855-A.ogg
        4-199261-A.ogg
        2-117271-A.ogg
        2-114587-A.ogg
        3-180256-A.ogg
        5-212454-A.ogg
        1-59513-A.ogg
        2-118964-A.ogg
        1-110389-A.ogg
        3-180977-A.ogg
        3-170015-A.ogg
        4-192236-A.ogg
        4-191687-A.ogg
        3-144028-A.ogg
        1-100032-A.ogg
        5-208030-A.ogg
        5-217158-A.ogg
        1-85362-A.ogg
        3-157695-A.ogg
        2-116400-A.ogg
        4-194754-A.ogg
        5-9032-A.ogg
        4-183992-A.ogg
        5-203128-A.ogg
        2-118072-A.ogg
        5-231762-A.ogg
        3-136288-A.ogg
        4-182395-A.ogg
        1-32318-A.ogg
        3-155312-A.ogg
        4-184575-A.ogg
        3-163459-A.ogg
      - Chainsaw
        4-157611-A.ogg
        5-170338-A.ogg
        3-165856-A.ogg
        1-64398-A.ogg
        5-185579-B.ogg
        3-118656-A.ogg
        4-165823-B.ogg
        4-149294-A.ogg
        1-19898-A.ogg
        1-19898-B.ogg
        1-116765-A.ogg
        5-216370-A.ogg
        1-19898-C.ogg
        3-118657-B.ogg
        1-47250-A.ogg
        2-50668-A.ogg
        2-50667-A.ogg
        4-157611-B.ogg
        1-47250-B.ogg
        5-222524-A.ogg
        3-118658-B.ogg
        4-169127-A.ogg
        2-50668-B.ogg
        3-118972-A.ogg
        5-185579-A.ogg
        5-216370-B.ogg
        5-170338-B.ogg
        3-118658-A.ogg
        5-171653-A.ogg
        2-50667-B.ogg
        2-68391-B.ogg
        2-77945-B.ogg
        3-118657-A.ogg
        3-118972-B.ogg
        1-64398-B.ogg
        4-169127-B.ogg
        2-68391-A.ogg
        4-165823-A.ogg
        2-77945-A.ogg
        4-149294-B.ogg
      - Crackling fire
        4-171207-A.ogg
        2-30322-A.ogg
        1-17742-A.ogg
        3-145774-A.ogg
        3-104958-A.ogg
        5-193473-A.ogg
        4-164661-B.ogg
        3-157187-A.ogg
        3-104632-A.ogg
        5-189212-A.ogg
        4-182369-A.ogg
        3-158476-A.ogg
        4-164661-A.ogg
        2-18766-B.ogg
        4-182368-A.ogg
        2-28314-A.ogg
        1-7057-A.ogg
        4-181563-A.ogg
        1-17808-B.ogg
        3-65748-A.ogg
        1-4211-A.ogg
        3-120644-A.ogg
        4-170247-A.ogg
        5-189237-A.ogg
        2-30322-B.ogg
        5-193473-B.ogg
        2-65747-A.ogg
        2-18766-A.ogg
        5-186924-A.ogg
        4-170247-B.ogg
        2-28314-B.ogg
        2-61311-A.ogg
        1-17808-A.ogg
        3-147965-A.ogg
        1-17565-A.ogg
        1-17150-A.ogg
        5-213802-A.ogg
        5-215658-A.ogg
        1-46272-A.ogg
        5-215658-B.ogg
      - Rooster
        1-40730-A.ogg
        1-39923-A.ogg
        3-145382-A.ogg
        5-194930-A.ogg
        4-164859-A.ogg
        3-116135-A.ogg
        2-95258-A.ogg
        1-34119-A.ogg
        4-183487-A.ogg
        2-95258-B.ogg
        2-71162-A.ogg
        1-43382-A.ogg
        2-96460-A.ogg
        5-200334-A.ogg
        4-208021-A.ogg
        2-81270-A.ogg
        5-234879-B.ogg
        4-170078-A.ogg
        3-134049-A.ogg
        3-154957-A.ogg
        4-164064-A.ogg
        3-107219-A.ogg
        5-233160-A.ogg
        5-200339-A.ogg
        5-200334-B.ogg
        5-234879-A.ogg
        2-100786-A.ogg
        4-164021-A.ogg
        4-164064-C.ogg
        3-137152-A.ogg
        3-149189-A.ogg
        1-26806-A.ogg
        1-44831-A.ogg
        5-194930-B.ogg
        1-27724-A.ogg
        4-164064-B.ogg
        1-34119-B.ogg
        3-163288-A.ogg
        2-65750-A.ogg
        2-95035-A.ogg
      - Sneezing
        2-130979-A.ogg
        4-185415-A.ogg
        4-156843-A.ogg
        5-194533-A.ogg
        5-221593-A.ogg
        1-47274-A.ogg
        3-141684-A.ogg
        3-150231-A.ogg
        4-157297-A.ogg
        3-142601-A.ogg
        5-220026-A.ogg
        1-59324-A.ogg
        5-220027-A.ogg
        1-26143-A.ogg
        4-184434-A.ogg
        4-185619-A.ogg
        2-130978-A.ogg
        2-128631-A.ogg
        1-81883-A.ogg
        2-93030-A.ogg
        2-119102-A.ogg
        1-31748-A.ogg
        1-54505-A.ogg
        3-156558-A.ogg
        3-144692-A.ogg
        3-143119-A.ogg
        2-118104-A.ogg
        5-202220-A.ogg
        3-148330-A.ogg
        2-109505-A.ogg
        5-221518-A.ogg
        5-201274-A.ogg
        3-142605-A.ogg
        2-82538-A.ogg
        1-29680-A.ogg
        1-47273-A.ogg
        4-167642-A.ogg
        5-187979-A.ogg
        4-156844-A.ogg
        4-171519-A.ogg
      - Sea waves
        2-137162-A.ogg
        4-167063-C.ogg
        1-28135-B.ogg
        4-195497-B.ogg
        2-124662-A.ogg
        3-144827-B.ogg
        5-219379-A.ogg
        1-39901-B.ogg
        3-164630-A.ogg
        5-208810-A.ogg
        3-144827-A.ogg
        4-204618-A.ogg
        5-200461-A.ogg
        1-61252-A.ogg
        2-132157-B.ogg
        4-195497-A.ogg
        4-182613-A.ogg
        5-219379-B.ogg
        5-200461-B.ogg
        1-91359-A.ogg
        3-166422-A.ogg
        5-213077-A.ogg
        1-91359-B.ogg
        2-155801-A.ogg
        1-43760-A.ogg
        2-102852-A.ogg
        2-125966-A.ogg
        5-219379-C.ogg
        3-155642-B.ogg
        1-28135-A.ogg
        2-133863-A.ogg
        2-132157-A.ogg
        5-208810-B.ogg
        3-155642-A.ogg
        1-39901-A.ogg
        3-164120-A.ogg
        3-187710-A.ogg
        4-167063-A.ogg
        4-167063-B.ogg
        4-182613-B.ogg
      - Rain
        4-160999-A.ogg
        1-29561-A.ogg
        5-203739-A.ogg
        5-195710-A.ogg
        5-198321-A.ogg
        2-87781-A.ogg
        1-17367-A.ogg
        4-166661-A.ogg
        2-72970-A.ogg
        4-180380-A.ogg
        1-54958-A.ogg
        4-164206-A.ogg
        4-177250-A.ogg
        4-161127-A.ogg
        3-157487-A.ogg
        5-188655-A.ogg
        3-157149-A.ogg
        1-50060-A.ogg
        3-140774-A.ogg
        1-26222-A.ogg
        4-181286-A.ogg
        1-56311-A.ogg
        3-143929-A.ogg
        5-193339-A.ogg
        4-163264-A.ogg
        2-117625-A.ogg
        3-132852-A.ogg
        5-194892-A.ogg
        2-73027-A.ogg
        3-157615-A.ogg
        5-202898-A.ogg
        3-142006-A.ogg
        2-73260-A.ogg
        3-142005-A.ogg
        2-81731-A.ogg
        1-63871-A.ogg
        2-101676-A.ogg
        2-82367-A.ogg
        1-21189-A.ogg
        5-181766-A.ogg
      - Clock tick
        4-191327-A.ogg
        3-170383-A.ogg
        4-194711-A.ogg
        1-62849-A.ogg
        2-141584-A.ogg
        3-171012-A.ogg
        1-21934-A.ogg
        4-198965-A.ogg
        3-164688-A.ogg
        1-21935-A.ogg
        2-131943-A.ogg
        4-175945-A.ogg
        1-62850-A.ogg
        3-150363-A.ogg
        1-42139-A.ogg
        2-134700-A.ogg
        4-179984-A.ogg
        1-57163-A.ogg
        2-88724-A.ogg
        1-35687-A.ogg
        3-170377-A.ogg
        5-212181-A.ogg
        3-171041-A.ogg
        1-48413-A.ogg
        5-208624-A.ogg
        4-181035-A.ogg
        4-181865-A.ogg
        5-219342-A.ogg
        2-119748-A.ogg
        5-209698-A.ogg
        3-142593-A.ogg
        2-140147-A.ogg
        5-209833-A.ogg
        2-135728-A.ogg
        3-143933-A.ogg
        5-201194-A.ogg
        5-235671-A.ogg
        5-210571-A.ogg
        4-188033-A.ogg
        2-127108-A.ogg
      - Crying baby
        4-59579-A.ogg
        1-22694-B.ogg
        5-198411-A.ogg
        2-66637-A.ogg
        1-211527-B.ogg
        2-107351-A.ogg
        4-59579-B.ogg
        5-198411-C.ogg
        5-198411-E.ogg
        1-60997-B.ogg
        4-185575-A.ogg
        2-50666-A.ogg
        4-167077-C.ogg
        2-50665-A.ogg
        3-152007-A.ogg
        1-60997-A.ogg
        1-211527-C.ogg
        4-185575-C.ogg
        5-198411-F.ogg
        3-152007-D.ogg
        4-167077-B.ogg
        3-151081-A.ogg
        3-152007-E.ogg
        3-151081-B.ogg
        2-66637-B.ogg
        4-167077-A.ogg
        2-107351-B.ogg
        5-198411-B.ogg
        3-152007-B.ogg
        1-187207-A.ogg
        3-152007-C.ogg
        2-151079-A.ogg
        1-211527-A.ogg
        5-198411-G.ogg
        1-22694-A.ogg
        5-198411-D.ogg
        4-185575-B.ogg
        5-151085-A.ogg
        2-80482-A.ogg
        3-151080-A.ogg
    - feature
- train.py
- cvindex.npz
- esc10_input.py
- README.md
- data_augmentation.py
- test.py
- data_analysis.py
- image

# -*- coding: utf-8 -*-
"""
@author: Jason Zhang
@github: https://github.com/JasonZhang156/Sound-Recognition-Tutorial
"""

import numpy as np
import librosa
import random


def extract_logmel(y, sr, size=3):
    """
    extract log mel spectrogram feature
    :param y: the input signal (audio time series)
    :param sr: sample rate of 'y'
    :param size: the length (seconds) of random crop from original audio, default as 3 seconds
    :return: log-mel spectrogram feature
    """
    # normalization
    y = y.astype(np.float32)
    normalization_factor = 1 / np.max(np.abs(y))
    y = y * normalization_factor

    # random crop
    start = random.randint(0, len(y) - size * sr)
    y = y[start: start + size * sr]

    # extract log mel spectrogram #####
    melspectrogram = librosa.feature.melspectrogram(y=y, sr=sr, n_fft=2048, hop_length=1024, n_mels=60)
    logmelspec = librosa.power_to_db(melspectrogram)

    return logmelspec


def extract_mfcc(y, sr, size=3):
    """
    extract MFCC feature
    :param y: np.ndarray [shape=(n,)], real-valued the input signal (audio time series)
    :param sr: sample rate of 'y'
    :param size: the length (seconds) of random crop from original audio, default as 3 seconds
    :return: MFCC feature
    """
    # normalization
    y = y.astype(np.float32)
    normalization_factor = 1 / np.max(np.abs(y))
    y = y * normalization_factor

    # random crop
    start = random.randint(0, len(y) - size * sr)
    y = y[start: start + size * sr]

    # extract log mel spectrogram #####
    melspectrogram = librosa.feature.melspectrogram(y=y, sr=sr, n_fft=2048, hop_length=1024)
    mfcc = librosa.feature.mfcc(S=librosa.power_to_db(melspectrogram), n_mfcc=20)
    mfcc_delta = librosa.feature.delta(mfcc)
    mfcc_delta_delta = librosa.feature.delta(mfcc_delta)
    mfcc_comb = np.concatenate([mfcc, mfcc_delta, mfcc_delta_delta], axis=0)

    return mfcc_comb


if __name__ == '__main__':
    # a demo sample
    y, sr = librosa.load('./data/esc10/audio/Chainsaw/1-19898-A.ogg')
    feat = extract_mfcc(y, sr, size=3)