EasyMocap/scripts/dataset/download_youtube.py

'''
  @ Date: 2022-03-29 13:55:42
  @ Author: Qing Shuai
  @ Mail: s_q@zju.edu.cn
  @ LastEditors: Qing Shuai
  @ LastEditTime: 2022-05-06 16:45:47
  @ FilePath: /EasyMocapPublic/scripts/dataset/download_youtube.py
'''
from glob import glob
from os.path import join
from urllib.error import URLError
from pytube import YouTube
import os
from easymocap.mytools.debug_utils import log, mkdir, myerror

extensions = ['.mp4', '.webm']

def download_youtube(vid, outdir):
    outname = join(outdir, vid)
    url = 'https://www.youtube.com/watch?v={}'.format(vid)
    for ext in extensions:
        if os.path.exists(outname+ext) and not args.restart:
            log('[Info]: skip video {}'.format(outname+ext))
            return 0
    log('[Info]: start to download video {}'.format(outname))
    log('[Info]: {}'.format(url))
    yt = YouTube(url)
    try:
        streams = yt.streams
    except KeyError:
        myerror('[Error]: not found streams: {}'.format(url))
        return 1
    except URLError:
        myerror('[Error]: Url error: {}'.format(url))
        return 1
    find = False
    streams_valid = []
    res_range = ['2160p', '1440p', '1080p', '720p'] if not args.only4k else ['2160p']
    if args.no720:
        res_range.remove('720p')
    for res in res_range:
        for fps in [60, 50, 30, 25, 24]:
            for ext in ['webm', 'mp4']:
                for stream in streams:
                    if stream.resolution == res and \
                       stream.fps == fps and \
                       stream.mime_type == 'video/{}'.format(ext):
                       streams_valid.append(stream)
    if len(streams_valid) == 0:
        for stream in streams:
            print(stream)
        myerror('[BUG ] Not found valid stream, please check the streams')
        return 0
    # best_stream = yt.streams.order_by('filesize')[-1]
    title = streams_valid[0].title
    log('[Info]: {}'.format(title))
    for stream in streams_valid:
        res = stream.resolution
        log('[Info]: The resolution is {}, ext={}'.format(res, stream.mime_type))
        filename = '{}.{}'.format(vid, stream.mime_type.split('/')[-1])
        try:
            stream.download(output_path=outdir, filename=filename, max_retries=0)
            log('[Info]: Succeed')
        except:
            myerror('[BUG ]: Failed')
            continue
        break


if __name__ == '__main__':
    import argparse
    parser = argparse.ArgumentParser()
    parser.add_argument('vid', type=str)
    parser.add_argument('--database', type=str, default='data/youtube')
    parser.add_argument('--num', type=int, default=1)
    parser.add_argument('--only4k', action='store_true')
    parser.add_argument('--no720', action='store_true')
    parser.add_argument('--restart', action='store_true')
    parser.add_argument('--debug', action='store_true')
    args = parser.parse_args()

    vid = args.vid
    # check database
    database = join(args.database, 'videos')
    mkdir(database)
    videonames = sorted(os.listdir(database))
    log('[download] video database in {}'.format(database))
    log('[download] already has {} videos'.format(len(videonames)))

    if vid.startswith('https'):
        vid = vid.replace('https://www.youtube.com/watch?v=', '')
        vid = vid.split('&')[0]
        print(vid)
        urls = [vid]
    elif os.path.exists(vid):
        with open(vid, 'r') as f:
            urls = f.readlines()
        urls = list(filter(lambda x:not x.startswith('#') and len(x) > 0, map(lambda x: x.strip().replace('https://www.youtube.com/watch?v=', '').split('&')[0], urls)))
        log('[download] download {} videos from {}'.format(len(urls), vid))
    else:
        urls = [vid]
    
    for url in urls:
        download_youtube(url, database)
:construction: update tools 1. update camera reader 2. update debug and visualize tools 2022-08-21 16:04:51 +08:00			`'''`
			`@ Date: 2022-03-29 13:55:42`
			`@ Author: Qing Shuai`
			`@ Mail: s_q@zju.edu.cn`
			`@ LastEditors: Qing Shuai`
			`@ LastEditTime: 2022-05-06 16:45:47`
			`@ FilePath: /EasyMocapPublic/scripts/dataset/download_youtube.py`
			`'''`
			`from glob import glob`
			`from os.path import join`
			`from urllib.error import URLError`
			`from pytube import YouTube`
			`import os`
			`from easymocap.mytools.debug_utils import log, mkdir, myerror`

			`extensions = ['.mp4', '.webm']`

			`def download_youtube(vid, outdir):`
			`outname = join(outdir, vid)`
			`url = 'https://www.youtube.com/watch?v={}'.format(vid)`
			`for ext in extensions:`
			`if os.path.exists(outname+ext) and not args.restart:`
			`log('[Info]: skip video {}'.format(outname+ext))`
			`return 0`
			`log('[Info]: start to download video {}'.format(outname))`
			`log('[Info]: {}'.format(url))`
			`yt = YouTube(url)`
			`try:`
			`streams = yt.streams`
			`except KeyError:`
			`myerror('[Error]: not found streams: {}'.format(url))`
			`return 1`
			`except URLError:`
			`myerror('[Error]: Url error: {}'.format(url))`
			`return 1`
			`find = False`
			`streams_valid = []`
			`res_range = ['2160p', '1440p', '1080p', '720p'] if not args.only4k else ['2160p']`
			`if args.no720:`
			`res_range.remove('720p')`
			`for res in res_range:`
			`for fps in [60, 50, 30, 25, 24]:`
			`for ext in ['webm', 'mp4']:`
			`for stream in streams:`
			`if stream.resolution == res and \`
			`stream.fps == fps and \`
			`stream.mime_type == 'video/{}'.format(ext):`
			`streams_valid.append(stream)`
			`if len(streams_valid) == 0:`
			`for stream in streams:`
			`print(stream)`
			`myerror('[BUG ] Not found valid stream, please check the streams')`
			`return 0`
			`# best_stream = yt.streams.order_by('filesize')[-1]`
			`title = streams_valid[0].title`
			`log('[Info]: {}'.format(title))`
			`for stream in streams_valid:`
			`res = stream.resolution`
			`log('[Info]: The resolution is {}, ext={}'.format(res, stream.mime_type))`
			`filename = '{}.{}'.format(vid, stream.mime_type.split('/')[-1])`
			`try:`
			`stream.download(output_path=outdir, filename=filename, max_retries=0)`
			`log('[Info]: Succeed')`
			`except:`
			`myerror('[BUG ]: Failed')`
			`continue`
			`break`


			`if __name__ == '__main__':`
			`import argparse`
			`parser = argparse.ArgumentParser()`
			`parser.add_argument('vid', type=str)`
			`parser.add_argument('--database', type=str, default='data/youtube')`
			`parser.add_argument('--num', type=int, default=1)`
			`parser.add_argument('--only4k', action='store_true')`
			`parser.add_argument('--no720', action='store_true')`
			`parser.add_argument('--restart', action='store_true')`
			`parser.add_argument('--debug', action='store_true')`
			`args = parser.parse_args()`

			`vid = args.vid`
			`# check database`
			`database = join(args.database, 'videos')`
			`mkdir(database)`
			`videonames = sorted(os.listdir(database))`
			`log('[download] video database in {}'.format(database))`
			`log('[download] already has {} videos'.format(len(videonames)))`

			`if vid.startswith('https'):`
			`vid = vid.replace('https://www.youtube.com/watch?v=', '')`
			`vid = vid.split('&')[0]`
			`print(vid)`
			`urls = [vid]`
			`elif os.path.exists(vid):`
			`with open(vid, 'r') as f:`
			`urls = f.readlines()`
			`urls = list(filter(lambda x:not x.startswith('#') and len(x) > 0, map(lambda x: x.strip().replace('https://www.youtube.com/watch?v=', '').split('&')[0], urls)))`
			`log('[download] download {} videos from {}'.format(len(urls), vid))`
			`else:`
			`urls = [vid]`

			`for url in urls:`
			`download_youtube(url, database)`