yt-dlp/youtube_dl/extractor/vidzi.py

# coding: utf-8
from __future__ import unicode_literals

import re

from .jwplatform import JWPlatformBaseIE
from ..utils import (
    base_n,
    js_to_json,
)


class VidziIE(JWPlatformBaseIE):
    _VALID_URL = r'https?://(?:www\.)?vidzi\.tv/(?P<id>\w+)'
    _TEST = {
        'url': 'http://vidzi.tv/cghql9yq6emu.html',
        'md5': '4f16c71ca0c8c8635ab6932b5f3f1660',
        'info_dict': {
            'id': 'cghql9yq6emu',
            'ext': 'mp4',
            'title': 'youtube-dl test video  1\\\\2\'3/4<5\\\\6ä7↭',
        },
        'params': {
            # m3u8 download
            'skip_download': True,
        },
    }

    def _real_extract(self, url):
        video_id = self._match_id(url)

        webpage = self._download_webpage(url, video_id)
        title = self._html_search_regex(
            r'(?s)<h2 class="video-title">(.*?)</h2>', webpage, 'title')

        mobj = re.search(r"}\('(.+)',36,(\d+),'([^']+)'\.split\('\|'\)", webpage)
        code, count, symbols = mobj.groups()

        count = int(count)
        symbols = symbols.split('|')

        while count:
            count -= 1
            if symbols[count]:
                code = re.sub(r'\b%s\b' % base_n(count, 36), symbols[count], code)

        code = code.replace('\\\'', '\'')
        jwplayer_data = self._parse_json(
            self._search_regex(r'setup\(([^)]+)\)', code, 'jwplayer data'),
            video_id, transform_source=js_to_json)

        info_dict = self._parse_jwplayer_data(jwplayer_data, video_id, require_title=False)
        info_dict['title'] = title

        return info_dict
PEP8 applied 2014-11-23 20:41:03 +01:00			`# coding: utf-8`
[vidzi] Simplify 2014-10-24 15:17:17 +02:00			`from __future__ import unicode_literals`

[vidzi] Fix extraction 2016-02-26 07:26:07 +01:00			`import re`
vidzi Add new extractor 2014-10-17 18:38:16 +02:00
[vidzi] Fix extraction 2016-02-26 07:26:07 +01:00			`from .jwplatform import JWPlatformBaseIE`
			`from ..utils import (`
[utils] Merge base_n functions 2016-02-26 07:37:20 +01:00			`base_n,`
[vidzi] Fix extraction 2016-02-26 07:26:07 +01:00			`js_to_json,`
			`)`
[vidzi] Simplify 2014-10-24 15:17:17 +02:00
[vidzi] Fix extraction 2016-02-26 07:26:07 +01:00
			`class VidziIE(JWPlatformBaseIE):`
vidzi Add new extractor 2014-10-17 18:38:16 +02:00			`_VALID_URL = r'https?://(?:www\.)?vidzi\.tv/(?P<id>\w+)'`
			`_TEST = {`
[vidzi] Use proper test case and simplify (#3989) 2014-10-24 15:27:02 +02:00			`'url': 'http://vidzi.tv/cghql9yq6emu.html',`
			`'md5': '4f16c71ca0c8c8635ab6932b5f3f1660',`
vidzi Add new extractor 2014-10-17 18:38:16 +02:00			`'info_dict': {`
[vidzi] Use proper test case and simplify (#3989) 2014-10-24 15:27:02 +02:00			`'id': 'cghql9yq6emu',`
vidzi Add new extractor 2014-10-17 18:38:16 +02:00			`'ext': 'mp4',`
[vidzi] Use proper test case and simplify (#3989) 2014-10-24 15:27:02 +02:00			`'title': 'youtube-dl test video 1\\\\2\'3/4<5\\\\6ä7↭',`
[vidzi] Fix _TESTS 2016-02-01 10:03:31 +01:00			`},`
			`'params': {`
			`# m3u8 download`
			`'skip_download': True,`
vidzi Add new extractor 2014-10-17 18:38:16 +02:00			`},`
			`}`

			`def _real_extract(self, url):`
[vidzi] Simplify 2014-10-24 15:17:17 +02:00			`video_id = self._match_id(url)`
PEP8 applied 2014-11-23 20:41:03 +01:00
[vidzi] Simplify 2014-10-24 15:17:17 +02:00			`webpage = self._download_webpage(url, video_id)`
			`title = self._html_search_regex(`
[vidzi] Use proper test case and simplify (#3989) 2014-10-24 15:27:02 +02:00			`r'(?s)<h2 class="video-title">(.*?)</h2>', webpage, 'title')`
PEP8 applied 2014-11-23 20:41:03 +01:00
[vidzi] Fix extraction 2016-02-26 07:26:07 +01:00			`mobj = re.search(r"}\('(.+)',36,(\d+),'([^']+)'\.split\('\\|'\)", webpage)`
			`code, count, symbols = mobj.groups()`

			`count = int(count)`
			`symbols = symbols.split('\|')`

			`while count:`
			`count -= 1`
			`if symbols[count]:`
[utils] Merge base_n functions 2016-02-26 07:37:20 +01:00			`code = re.sub(r'\b%s\b' % base_n(count, 36), symbols[count], code)`
[vidzi] Fix extraction 2016-02-26 07:26:07 +01:00
			`code = code.replace('\\\'', '\'')`
			`jwplayer_data = self._parse_json(`
			`self._search_regex(r'setup\(([^)]+)\)', code, 'jwplayer data'),`
			`video_id, transform_source=js_to_json)`

			`info_dict = self._parse_jwplayer_data(jwplayer_data, video_id, require_title=False)`
			`info_dict['title'] = title`

			`return info_dict`