python source code of kinetics400

gluon-cv-master
- Makefile
- .gitmodules
- LICENSE
- setup.py
- README.md
- tests
  - lint.py
  - unittests
    - test_data_dataloader.py
    - test_utils_bbox.py
    - test_utils_parallel.py
    - test_model_zoo.py
    - test_data_datasets.py
    - common.py
    - test_data_transforms.py
    - test_utils_segmentation.py
    - test_lr_scheduler.py
    - test_utils_block.py
    - test_nn.py
    - test_utils_export.py
    - test_utils_viz.py
    - test_utils_metric.py
  - py3.yml
  - pylint.yml
  - pylintrc
  - py2.yml
- scripts
  - action-recognition
    - train_recognizer.py
    - test_recognizer.py
    - README.md
    - inference.py
    - feat_extract.py
  - datasets
    - kinetics400.py
    - ade20k.py
    - hmdb51.py
    - lsun.py
    - mscoco.py
    - ucf101.py
    - ilsvrc_vid.py
    - coco_tracking.py
    - ilsvrc_det.py
    - cityscapes.py
    - README.md
    - somethingsomethingv2.py
    - pascal_voc.py
    - market1501.py
    - mhp_v1.py
    - imagenet.py
  - instance
    - mask_rcnn
      - train_mask_rcnn.py
      - demo_mask_rcnn.py
      - README.md
      - eval_mask_rcnn.py
      - benchmark
        README.md
        ompi_bind_DGX1.sh
    - README.md
  - segmentation
    - train.py
    - README.md
    - test.py
  - detection
    - center_net
      - demo_center_net.py
      - train_center_net.py
      - eval_center_net.py
    - faster_rcnn
      - eval_faster_rcnn.py
      - README.md
      - demo_faster_rcnn.py
      - train_faster_rcnn.py
    - yolo
      - eval_yolo.py
      - train_yolo3.py
      - README.md
      - demo_yolo.py
    - demo_webcam_run.py
    - README.md
    - ssd
      - demo_ssd.py
      - eval_ssd.py
      - README.md
      - train_ssd.py
  - classification
    - cifar
      - train_cifar10.py
      - demo_cifar10.py
      - train_mixup_cifar10.py
      - README.md
    - finetune
      - prepare_minc.py
      - finetune_minc.py
    - imagenet
      - train_imagenet.py
      - verify_pretrained.py
      - train_imagenet_nasnet.py
      - train_horovod.py
      - imagenet_labels.txt
      - README.md
      - demo_imagenet.py
  - re-id
    - baseline
      - networks
        resnet.py
        __init__.py
      - train.py
      - README.md
      - test.py
  - pose
    - simple_pose
      - coco.sh
      - validate.py
      - demo.py
      - validate.sh
      - cam_demo.py
      - README.md
      - train_simple_pose.py
    - alpha_pose
      - coco.sh
      - validate.py
      - demo.py
      - train_alpha_pose.py
      - validate.sh
      - validate_tools.py
      - cam_demo.py
      - coco_dpg.sh
  - deployment
    - cpp-inference
      - src
        detect.cpp
        common.hpp
      - CMakeLists.txt
      - README.md
      - .gitignore
    - export
      - README.md
      - export_pretrained.py
      - .gitignore
    - README.md
  - gan
    - srgan
      - demo_srgan.py
      - download_dataset.py
      - __init__.py
      - README.md
      - train_srgan.py
    - wgan
      - lsun.py
      - train_wgan.py
      - README.md
    - cycle_gan
      - train_cgan.py
      - download_dataset.py
      - README.md
      - demo_cycle_gan.py
  - README.md
  - tracking
    - demo.py
    - train.py
    - test.py
    - benchmark.py
- gluoncv
  - utils
    - lr_scheduler.py
    - viz
      - keypoints.py
      - image.py
      - mask.py
      - bbox.py
      - __init__.py
      - segmentation.py
      - network.py
    - download.py
    - filesystem.py
    - compress_json.py
    - version.py
    - random.py
    - block.py
    - bbox.py
    - data
      - tracking.py
    - export_helper.py
    - __init__.py
    - metrics
      - heatmap_accuracy.py
      - coco_keypoints.py
      - coco_detection.py
      - tracking.py
      - accuracy.py
      - voc_detection.py
      - __init__.py
      - rcnn.py
      - segmentation.py
      - coco_instance.py
    - plot_history.py
    - parallel.py
    - transforms.py
    - sync_loader_helper.py
  - loss.py
  - nn
    - predictor.py
    - dropblock.py
    - sampler.py
    - block.py
    - coder.py
    - cython_bbox.pyx
    - gn.py
    - bbox.py
    - matcher.py
    - __init__.py
    - splat.py
    - feature.py
  - data
    - market1501
      - data_read.py
      - label_read.py
      - __init__.py
    - mixup
      - detection.py
      - __init__.py
    - pascal_voc
      - detection.py
      - __init__.py
      - segmentation.py
    - sampler.py
    - mscoco
      - keypoints.py
      - detection.py
      - instance.py
      - __init__.py
      - utils.py
      - segmentation.py
    - visdrone
      - detection.py
      - __init__.py
    - segbase.py
    - pascal_aug
      - __init__.py
      - segmentation.py
    - video_custom
      - classification.py
      - __init__.py
    - recordio
      - detection.py
      - __init__.py
    - somethingsomethingv2
      - classification.py
      - __init__.py
    - dataloader.py
    - hmdb51
      - classification.py
      - __init__.py
    - mhp.py
    - batchify.py
    - cityscapes.py
    - otb
      - tracking.py
      - __init__.py
    - __init__.py
    - ade20k
      - __init__.py
      - segmentation.py
    - ucf101
      - classification.py
      - __init__.py
    - lst
      - detection.py
      - __init__.py
    - tracking_data
      - __init__.py
      - track.py
    - imagenet
      - classification.py
      - __init__.py
    - transforms
      - image.py
      - presets
        simple_pose.py
        yolo.py
        __init__.py
        rcnn.py
        center_net.py
        segmentation.py
        imagenet.py
        alpha_pose.py
        ssd.py
      - block.py
      - pose.py
      - mask.py
      - bbox.py
      - video.py
      - __init__.py
      - experimental
        image.py
        bbox.py
        __init__.py
      - track.py
    - base.py
    - kinetics400
      - classification.py
      - __init__.py
  - __init__.py
  - model_zoo
    - center_net
      - deconv_resnet.py
      - deconv_dla.py
      - duc_mobilenet.py
      - __init__.py
      - target_generator.py
      - center_net.py
    - vgg.py
    - quantized
      - ssd_512_vgg16_atrous_voc_int8-symbol.json
      - mobilenet1.0_int8-symbol.json
      - ssd_300_vgg16_atrous_voc_int8-symbol.json
      - __init__.py
    - resnetv1b.py
    - alexnet.py
    - icnet.py
    - rcnn
      - faster_rcnn
        predefined_models.py
        rcnn_target.py
        data_parallel.py
        faster_rcnn.py
        __init__.py
      - mask_rcnn
        predefined_models.py
        rcnn_target.py
        data_parallel.py
        __init__.py
        mask_rcnn.py
      - __init__.py
      - rcnn.py
      - rpn
        anchor.py
        rpn.py
        rpn_target.py
        bbox_clip.py
        proposal.py
        __init__.py
        cython_rpn_target.pyx
    - fastscnn.py
    - resnest.py
    - mobilenetv3.py
    - pruned_resnet
      - resnet50_v1d_8.8x.json
      - resnetv1b_pruned.py
      - resnet101_v1d_1.9x.json
      - resnet18_v1b_2.6x.json
      - resnet50_v1d_5.9x.json
      - resnet50_v1d_3.6x.json
      - __init__.py
      - resnet50_v1d_1.8x.json
      - resnet101_v1d_2.2x.json
    - mobilenet.py
    - segbase.py
    - fcn.py
    - hrnet.py
    - cifarresnext.py
    - squeezenet.py
    - residual_attentionnet.py
    - deeplabv3_plus.py
    - xception.py
    - se_resnet.py
    - yolo
      - yolo3.py
      - yolo_target.py
      - darknet.py
      - __init__.py
    - pspnet.py
    - attention.py
    - cifarresnet.py
    - resnet.py
    - nasnet.py
    - wideresnet.py
    - siamrpn
      - siam_net.py
      - siam_alexnet.py
      - siamrpn_tracker.py
      - siam_rpn.py
      - __init__.py
    - simple_pose
      - pose_target.py
      - simple_pose_resnet.py
      - __init__.py
      - mobile_pose.py
    - googlenet.py
    - model_zoo.py
    - densenet.py
    - deeplabv3b_plus.py
    - dla.py
    - action_recognition
      - actionrec_inceptionv1.py
      - i3d_inceptionv3.py
      - actionrec_vgg16.py
      - p3d.py
      - i3d_resnet.py
      - c3d.py
      - slowfast.py
      - actionrec_resnetv1b.py
      - i3d_inceptionv1.py
      - __init__.py
      - actionrec_inceptionv3.py
      - r2plus1d.py
      - non_local.py
    - __init__.py
    - model_store.py
    - cifarwideresnet.py
    - danet.py
    - resnext.py
    - deeplabv3.py
    - inception.py
    - alpha_pose
      - __init__.py
      - utils.py
      - fast_pose.py
    - ssd
      - anchor.py
      - resnet_v1b_ssd.py
      - target.py
      - vgg_atrous.py
      - __init__.py
      - presets.py
      - ssd.py
    - senet.py
- .gitignore
- Jenkinsfile
- docs
  - install.rst
  - Makefile
  - slides.md
  - .nojekyll
  - Doxyfile
  - api
    - nn.rst
    - data.transforms.rst
    - data.datasets.rst
    - utils.rst
    - model_zoo.rst
    - loss.rst
    - data.batchify.rst
    - index.rst
  - how_to
    - support.rst
    - contribute.md
    - index.rst
  - build.yml
  - README.txt
  - tutorials
    - datasets
      - kinetics400.py
      - ade20k.py
      - hmdb51.py
      - mscoco.py
      - ucf101.py
      - README.txt
      - detection_custom.py
      - cityscapes.py
      - somethingsomethingv2.py
      - pascal_voc.py
      - mhp_v1.py
      - imagenet.py
      - .gitignore
      - recordio.py
    - instance
      - demo_mask_rcnn.py
      - train_mask_rcnn_coco.py
      - README.txt
      - .gitignore
    - distributed
      - README.txt
      - distributed_slowfast.py
    - segmentation
      - demo_deeplab.py
      - train_fcn.py
      - demo_icnet.py
      - demo_psp.py
      - README.txt
      - demo_fcn.py
      - train_psp.py
      - .gitignore
      - voc_sota.py
    - detection
      - demo_ssd.py
      - skip_fintune.py
      - demo_webcam.py
      - train_yolo_v3.py
      - demo_jetson.py
      - train_ssd_voc.py
      - README.txt
      - demo_center_net.py
      - train_ssd_advanced.py
      - finetune_detection.py
      - demo_faster_rcnn.py
      - demo_yolo.py
      - .gitignore
      - train_faster_rcnn_voc.py
    - classification
      - dive_deep_cifar10.py
      - dive_deep_imagenet.py
      - demo_cifar10.py
      - transfer_learning_minc.py
      - README.txt
      - demo_imagenet.py
    - pose
      - demo_alpha_pose.py
      - dive_deep_simple_pose.py
      - demo_simple_pose.py
      - README.txt
      - cam_demo.py
    - deployment
      - cpp_inference.py
      - export_network.py
      - README.txt
      - int8_inference.py
      - .gitignore
    - action_recognition
      - demo_slowfast_kinetics400.py
      - feat_custom.py
      - demo_i3d_kinetics400.py
      - dive_deep_i3d_kinetics400.py
      - decord_loader.py
      - README.txt
      - dive_deep_slowfast_kinetics400.py
      - finetune_custom.py
      - demo_tsn_ucf101.py
      - dive_deep_tsn_ucf101.py
      - demo_custom.py
    - index.rst
    - tracking
      - demo_SiamRPN.py
      - README.txt
  - contents.rst
  - install
    - install-include.rst
    - install-more.rst
  - conf.py
  - model_zoo
    - pose.rst
    - detection.rst
    - classification.rst
    - action_recognition.rst
    - index.rst
    - segmentation.rst
  - .gitignore
  - _templates
    - layout.html
    - index.html
  - _static
    - install-options.js
    - logos
      - embed.html
    - applications.html
    - gluon-logo.svg
    - hidebib.js
    - apache2.svg
    - google_analytics.js
    - imagenet_banner.jpeg
    - js
      - jquery.min.js
      - slides.min.js
    - gluon.ico
    - css
      - material_icon.css
      - slides.min.css
      - custom.css
    - pose-estimation.svg
    - assets
      - svg
        video-icon.svg
        icons.svg
        video-icon-dark.svg
        play.svg
      - img
        background
- MANIFEST.in

"""This script is largely borrowed from https://github.com/open-mmlab/mmaction.
"""

import argparse
import sys
import os
import os.path as osp
import glob
import fnmatch
import random
import zipfile
from pipes import quote
from multiprocessing import Pool, current_process
import csv

def dump_frames(vid_item):

    from gluoncv.utils.filesystem import try_import_mmcv
    mmcv = try_import_mmcv()

    full_path, vid_path, vid_id = vid_item
    vid_name = vid_path.split('.')[0]
    out_full_path = osp.join(args.out_dir, vid_name)
    try:
        os.mkdir(out_full_path)
    except OSError:
        pass
    vr = mmcv.VideoReader(full_path)
    for i in range(len(vr)):
        if vr[i] is not None:
            if args.new_width > 0 and args.new_height > 0:
                cur_img = mmcv.imresize(vr[i], (args.new_width, args.new_height))
            else:
                cur_img = vr[i]
            mmcv.imwrite(
                cur_img, '{}/img_{:05d}.jpg'.format(out_full_path, i + 1))
        else:
            print('[Warning] length inconsistent!'
                  'Early stop with {} out of {} frames'.format(i + 1, len(vr)))
            break
    print('{} done with {} frames'.format(vid_name, len(vr)))
    sys.stdout.flush()
    return True


def run_optical_flow(vid_item, dev_id=0):
    full_path, vid_path, vid_id = vid_item
    vid_name = vid_path.split('.')[0]
    out_full_path = osp.join(args.out_dir, vid_name)
    try:
        os.mkdir(out_full_path)
    except OSError:
        pass

    current = current_process()
    dev_id = (int(current._identity[0]) - 1) % args.num_gpu
    image_path = '{}/img'.format(out_full_path)
    flow_x_path = '{}/flow_x'.format(out_full_path)
    flow_y_path = '{}/flow_y'.format(out_full_path)

    cmd = osp.join(args.df_path, 'build/extract_gpu') + \
        ' -f={} -x={} -y={} -i={} -b=20 -t=1 -d={} -s=1 -o={} -w={} -h={}' \
        .format(
        quote(full_path),
        quote(flow_x_path), quote(flow_y_path), quote(image_path),
        dev_id, args.out_format, args.new_width, args.new_height)

    os.system(cmd)
    print('{} {} done'.format(vid_id, vid_name))
    sys.stdout.flush()
    return True


def run_warp_optical_flow(vid_item, dev_id=0):
    full_path, vid_path, vid_id = vid_item
    vid_name = vid_path.split('.')[0]
    out_full_path = osp.join(args.out_dir, vid_name)
    try:
        os.mkdir(out_full_path)
    except OSError:
        pass

    current = current_process()
    dev_id = (int(current._identity[0]) - 1) % args.num_gpu
    flow_x_path = '{}/flow_x'.format(out_full_path)
    flow_y_path = '{}/flow_y'.format(out_full_path)

    cmd = osp.join(args.df_path + 'build/extract_warp_gpu') + \
        ' -f={} -x={} -y={} -b=20 -t=1 -d={} -s=1 -o={}'.format(
            quote(full_path), quote(flow_x_path), quote(flow_y_path),
            dev_id, args.out_format)

    os.system(cmd)
    print('warp on {} {} done'.format(vid_id, vid_name))
    sys.stdout.flush()
    return True


def parse_args():
    parser = argparse.ArgumentParser(description='prepare Kinetics400 dataset')
    parser.add_argument('--download_dir', type=str, default='~/.mxnet/datasets/kinetics400')
    parser.add_argument('--src_dir', type=str, default='~/.mxnet/datasets/kinetics400/train')
    parser.add_argument('--out_dir', type=str, default='~/.mxnet/datasets/kinetics400/rawframes_train')
    parser.add_argument('--frame_path', type=str, default='~/.mxnet/datasets/kinetics400/rawframes_train')
    parser.add_argument('--anno_dir', type=str, default='~/.mxnet/datasets/kinetics400/annotations')
    parser.add_argument('--out_list_path', type=str, default='~/.mxnet/datasets/kinetics400')
    parser.add_argument('--level', type=int, choices=[1, 2], default=2)
    parser.add_argument('--num_worker', type=int, default=8)
    parser.add_argument('--flow_type', type=str, default=None, choices=[None, 'tvl1', 'warp_tvl1'])
    parser.add_argument('--df_path', type=str, default='./dense_flow', help='need dense flow implementation')
    parser.add_argument("--out_format", type=str, default='dir', choices=['dir', 'zip'], help='output format')
    parser.add_argument("--ext", type=str, default='mp4', choices=['avi', 'mp4'], help='video file extensions')
    parser.add_argument("--new_width", type=int, default=0, help='resize image width')
    parser.add_argument("--new_height", type=int, default=0, help='resize image height')
    parser.add_argument("--num_gpu", type=int, default=8, help='number of GPU')
    parser.add_argument("--resume", action='store_true', default=False, help='resume optical flow extraction instead of overwriting')
    parser.add_argument('--dataset', type=str, choices=['ucf101', 'kinetics400'], default='kinetics400')
    parser.add_argument('--rgb_prefix', type=str, default='img_')
    parser.add_argument('--flow_x_prefix', type=str, default='flow_x_')
    parser.add_argument('--flow_y_prefix', type=str, default='flow_y_')
    parser.add_argument('--num_split', type=int, default=1)
    parser.add_argument('--subset', type=str, default='train', choices=['train', 'val', 'test'])
    parser.add_argument('--format', type=str, default='rawframes', choices=['rawframes', 'videos'])
    parser.add_argument('--shuffle', action='store_true', default=False)
    parser.add_argument('--tiny_dataset', action='store_true', default=False)
    parser.add_argument('--download', action='store_true', default=False)
    parser.add_argument('--decode_video', action='store_true', default=False)
    parser.add_argument('--build_file_list', action='store_true', default=False)
    args = parser.parse_args()

    args.download_dir = os.path.expanduser(args.download_dir)
    args.src_dir = os.path.expanduser(args.src_dir)
    args.out_dir = os.path.expanduser(args.out_dir)
    args.frame_path = os.path.expanduser(args.frame_path)
    args.anno_dir = os.path.expanduser(args.anno_dir)
    args.out_list_path = os.path.expanduser(args.out_list_path)

    return args

def decode_video(args):

    if not osp.isdir(args.out_dir):
        print('Creating folder: {}'.format(args.out_dir))
        os.makedirs(args.out_dir)
    if args.level == 2:
        classes = os.listdir(args.src_dir)
        for classname in classes:
            new_dir = osp.join(args.out_dir, classname)
            if not osp.isdir(new_dir):
                print('Creating folder: {}'.format(new_dir))
                os.makedirs(new_dir)

    print('Reading videos from folder: ', args.src_dir)
    print('Extension of videos: ', args.ext)
    if args.level == 2:
        fullpath_list = glob.glob(args.src_dir + '/*/*.' + args.ext)
        done_fullpath_list = glob.glob(args.out_dir + '/*/*')
    elif args.level == 1:
        fullpath_list = glob.glob(args.src_dir + '/*.' + args.ext)
        done_fullpath_list = glob.glob(args.out_dir + '/*')
    print('Total number of videos found: ', len(fullpath_list))
    if args.resume:
        fullpath_list = set(fullpath_list).difference(set(done_fullpath_list))
        fullpath_list = list(fullpath_list)
        print('Resuming. number of videos to be done: ', len(fullpath_list))

    if args.level == 2:
        vid_list = list(map(lambda p: osp.join(
            '/'.join(p.split('/')[-2:])), fullpath_list))
    elif args.level == 1:
        vid_list = list(map(lambda p: p.split('/')[-1], fullpath_list))

    pool = Pool(args.num_worker)
    if args.flow_type == 'tvl1':
        pool.map(run_optical_flow, zip(
            fullpath_list, vid_list, range(len(vid_list))))
    elif args.flow_type == 'warp_tvl1':
        pool.map(run_warp_optical_flow, zip(
            fullpath_list, vid_list, range(len(vid_list))))
    else:
        pool.map(dump_frames, zip(
            fullpath_list, vid_list, range(len(vid_list))))

def parse_ucf101_splits(args):
    level = args.level
    class_ind = [x.strip().split()
                 for x in open(os.path.join(args.anno_dir, 'classInd.txt'))]
    class_mapping = {x[1]: int(x[0]) - 1 for x in class_ind}

    def line2rec(line):
        items = line.strip().split(' ')
        vid = items[0].split('.')[0]
        vid = '/'.join(vid.split('/')[-level:])
        label = class_mapping[items[0].split('/')[0]]
        return vid, label

    splits = []
    for i in range(1, 4):
        train_list = [line2rec(x) for x in open(
            os.path.join(args.anno_dir, 'trainlist{:02d}.txt'.format(i)))]
        test_list = [line2rec(x) for x in open(
            os.path.join(args.anno_dir, 'testlist{:02d}.txt'.format(i)))]
        splits.append((train_list, test_list))
    return splits

def parse_kinetics_splits(args):
    level = args.level
    csv_reader = csv.reader(
        open(os.path.join(args.anno_dir, 'kinetics_train.csv')))
    # skip the first line
    next(csv_reader)

    def convert_label(s):
        return s.replace('"', '').replace(' ', '_')

    labels_sorted = sorted(
        set([convert_label(row[0]) for row in csv_reader]))
    class_mapping = {label: i for i, label in enumerate(labels_sorted)}

    def list2rec(x, test=False):
        if test:
            vid = '{}_{:06d}_{:06d}'.format(x[0], int(x[1]), int(x[2]))
            label = -1  # label unknown
            return vid, label
        else:
            vid = '{}_{:06d}_{:06d}'.format(x[1], int(x[2]), int(x[3]))
            if level == 2:
                vid = '{}/{}'.format(convert_label(x[0]), vid)
            else:
                assert level == 1
            label = class_mapping[convert_label(x[0])]
            return vid, label

    csv_reader = csv.reader(
        open(os.path.join(args.anno_dir, 'kinetics_train.csv')))
    next(csv_reader)
    train_list = [list2rec(x) for x in csv_reader]
    csv_reader = csv.reader(
        open(os.path.join(args.anno_dir, 'kinetics_val.csv')))
    next(csv_reader)
    val_list = [list2rec(x) for x in csv_reader]
    csv_reader = csv.reader(
        open(os.path.join(args.anno_dir, 'kinetics_test.csv')))
    next(csv_reader)
    test_list = [list2rec(x, test=True) for x in csv_reader]

    return ((train_list, val_list, test_list), )

def parse_directory(path, key_func=lambda x: x[-11:],
                    rgb_prefix='img_',
                    flow_x_prefix='flow_x_',
                    flow_y_prefix='flow_y_',
                    level=1):
    """
    Parse directories holding extracted frames from standard benchmarks
    """
    print('parse frames under folder {}'.format(path))
    if level == 1:
        frame_folders = glob.glob(os.path.join(path, '*'))
    elif level == 2:
        frame_folders = glob.glob(os.path.join(path, '*', '*'))
    else:
        raise ValueError('level can be only 1 or 2')

    def count_files(directory, prefix_list):
        lst = os.listdir(directory)
        cnt_list = [len(fnmatch.filter(lst, x+'*')) for x in prefix_list]
        return cnt_list

    # check RGB
    frame_dict = {}
    for i, f in enumerate(frame_folders):
        all_cnt = count_files(f, (rgb_prefix, flow_x_prefix, flow_y_prefix))
        k = key_func(f)

        x_cnt = all_cnt[1]
        y_cnt = all_cnt[2]
        if x_cnt != y_cnt:
            raise ValueError(
                'x and y direction have different number '
                'of flow images. video: ' + f)
        if i % 200 == 0:
            print('{} videos parsed'.format(i))

        frame_dict[k] = (f, all_cnt[0], x_cnt)

    print('frame folder analysis done')
    return frame_dict

def build_split_list(split, frame_info, shuffle=False):

    def build_set_list(set_list):
        rgb_list, flow_list = list(), list()
        for item in set_list:
            if item[0] not in frame_info:
                # print("item:", item)
                continue
            elif frame_info[item[0]][1] > 0:
                rgb_cnt = frame_info[item[0]][1]
                flow_cnt = frame_info[item[0]][2]
                rgb_list.append('{} {} {}\n'.format(
                    item[0], rgb_cnt, item[1]))
                flow_list.append('{} {} {}\n'.format(
                    item[0], flow_cnt, item[1]))
            else:
                rgb_list.append('{} {}\n'.format(
                    item[0], item[1]))
                flow_list.append('{} {}\n'.format(
                    item[0], item[1]))
        if shuffle:
            random.shuffle(rgb_list)
            random.shuffle(flow_list)
        return rgb_list, flow_list

    train_rgb_list, train_flow_list = build_set_list(split[0])
    test_rgb_list, test_flow_list = build_set_list(split[1])
    return (train_rgb_list, test_rgb_list), (train_flow_list, test_flow_list)

def build_file_list(args):

    if args.level == 2:
        def key_func(x): return '/'.join(x.split('/')[-2:])
    else:
        def key_func(x): return x.split('/')[-1]

    if args.format == 'rawframes':
        frame_info = parse_directory(args.frame_path,
                                     key_func=key_func,
                                     rgb_prefix=args.rgb_prefix,
                                     flow_x_prefix=args.flow_x_prefix,
                                     flow_y_prefix=args.flow_y_prefix,
                                     level=args.level)
    else:
        if args.level == 1:
            video_list = glob.glob(osp.join(args.frame_path, '*'))
        elif args.level == 2:
            video_list = glob.glob(osp.join(args.frame_path, '*', '*'))
        frame_info = {osp.relpath(
            x.split('.')[0], args.frame_path): (x, -1, -1) for x in video_list}

    if args.dataset == 'ucf101':
        split_tp = parse_ucf101_splits(args)
    elif args.dataset == 'kinetics400':
        split_tp = parse_kinetics_splits(args)
    assert len(split_tp) == args.num_split

    out_path = args.out_list_path
    if len(split_tp) > 1:
        for i, split in enumerate(split_tp):
            lists = build_split_list(split_tp[i], frame_info,
                                     shuffle=args.shuffle)
            filename = '{}_train_split_{}_{}.txt'.format(args.dataset,
                                                         i + 1, args.format)
            with open(osp.join(out_path, filename), 'w') as f:
                f.writelines(lists[0][0])
            filename = '{}_val_split_{}_{}.txt'.format(args.dataset,
                                                       i + 1, args.format)
            with open(osp.join(out_path, filename), 'w') as f:
                f.writelines(lists[0][1])
    else:
        lists = build_split_list(split_tp[0], frame_info,
                                 shuffle=args.shuffle)
        filename = '{}_{}_list_{}.txt'.format(args.dataset,
                                              args.subset,
                                              args.format)
        if args.subset == 'train':
            ind = 0
        elif args.subset == 'val':
            ind = 1
        elif args.subset == 'test':
            ind = 2
        with open(osp.join(out_path, filename), 'w') as f:
            f.writelines(lists[0][ind])

def download_kinetics400(args):

    print('Start downloading Kinetics400 annotation files.')
    download_kinetics400_anno(args)
    print('Download complete.')

    download_kinetics400_videos(args)

def download_kinetics400_anno(args):

    target_dir = args.download_dir
    if not os.path.exists(target_dir):
        os.makedirs(target_dir)

    train_file = 'https://deepmind.com/documents/66/kinetics_train.zip'
    val_file = 'https://deepmind.com/documents/65/kinetics_val.zip'
    test_file = 'wget https://deepmind.com/documents/81/kinetics_test.zip'

    os.system('wget -P %s %s' % (target_dir, train_file))
    os.system('wget -P %s %s' % (target_dir, val_file))
    os.system('wget -P %s %s' % (target_dir, test_file))

    with zipfile.ZipFile(os.path.join(target_dir, 'kinetics_train.zip')) as zf:
        zf.extractall(path=target_dir)

    with zipfile.ZipFile(os.path.join(target_dir, 'kinetics_val.zip')) as zf:
        zf.extractall(path=target_dir)

    with zipfile.ZipFile(os.path.join(target_dir, 'kinetics_test.zip')) as zf:
        zf.extractall(path=target_dir)

def download_kinetics400_videos(args):

    print('Please refer to the official Kinetics crawler for downloading the videos \
        at https://github.com/activitynet/ActivityNet/tree/master/Crawler/Kinetics. ')

if __name__ == '__main__':
    global args
    args = parse_args()

    if args.download:
        print('Downloading Kinetics400 dataset.')
        download_kinetics400(args)

    if args.decode_video:
        print('Decoding videos to frames.')
        decode_video(args)

    if args.build_file_list:
        print('Generating training files.')
        build_file_list(args)