Merge 96a0ad4778da7f30ed5be627f2c10df6d0af3ca8 into 2b4fbfce25902d557b86b003cf48f738129efce4

[YouTube] Support player 4fcd6e4a
thx seproDev, bashonly: yt-dlp/yt-dlp#12748
2025-07-16 00:14:17 +09:00 · 2025-03-26 07:33:58 +00:00 · 2025-03-26 02:27:25 +00:00 · 2025-03-25 22:35:06 +00:00 · 2025-03-25 22:35:06 +00:00 · 2025-03-25 22:35:06 +00:00
6 changed files with 318 additions and 48 deletions
--- a/test/test_youtube_signature.py
+++ b/test/test_youtube_signature.py
@ -84,6 +84,21 @@ _SIG_TESTS = [
        '2aq0aqSyOoJXtK73m-uME_jv7-pT15gOFC02RFkGMqWpzEICs69VdbwQ0LDp1v7j8xx92efCJlYFYb1sUkkBSPOlPmXgIARw8JQ0qOAOAA',
        '0QJ8wRAIgXmPlOPSBkkUs1bYFYlJCfe29xxAj7v1pDL0QwbdV96sCIEzpWqMGkFR20CFOg51Tp-7vj_EMu-m37KtXJ2OySqa0q',
    ),
    (
        'https://www.youtube.com/s/player/643afba4/tv-player-ias.vflset/tv-player-ias.js',
        '2aq0aqSyOoJXtK73m-uME_jv7-pT15gOFC02RFkGMqWpzEICs69VdbwQ0LDp1v7j8xx92efCJlYFYb1sUkkBSPOlPmXgIARw8JQ0qOAOAA',
        'AAOAOq0QJ8wRAIgXmPlOPSBkkUs1bYFYlJCfe29xx8j7vgpDL0QwbdV06sCIEzpWqMGkFR20CFOS21Tp-7vj_EMu-m37KtXJoOy1',
    ),
    (
        'https://www.youtube.com/s/player/363db69b/player_ias.vflset/en_US/base.js',
        '2aq0aqSyOoJXtK73m-uME_jv7-pT15gOFC02RFkGMqWpzEICs69VdbwQ0LDp1v7j8xx92efCJlYFYb1sUkkBSPOlPmXgIARw8JQ0qOAOAA',
        '0aqSyOoJXtK73m-uME_jv7-pT15gOFC02RFkGMqWpz2ICs6EVdbwQ0LDp1v7j8xx92efCJlYFYb1sUkkBSPOlPmXgIARw8JQ0qOAOAA',
    ),
    (
        'https://www.youtube.com/s/player/4fcd6e4a/player_ias.vflset/en_US/base.js',
        '2aq0aqSyOoJXtK73m-uME_jv7-pT15gOFC02RFkGMqWpzEICs69VdbwQ0LDp1v7j8xx92efCJlYFYb1sUkkBSPOlPmXgIARw8JQ0qOAOAA',
        'wAOAOq0QJ8ARAIgXmPlOPSBkkUs1bYFYlJCfe29xx8q7v1pDL0QwbdV96sCIEzpWqMGkFR20CFOg51Tp-7vj_EMu-m37KtXJoOySqa0',
    ),
 ]
 _NSIG_TESTS = [
@ -153,7 +168,7 @@ _NSIG_TESTS = [
    ),
    (
        'https://www.youtube.com/s/player/c57c113c/player_ias.vflset/en_US/base.js',
-        '-Txvy6bT5R6LqgnQNx', 'dcklJCnRUHbgSg',
+        'M92UUMHa8PdvPd3wyM', '3hPqLJsiNZx7yA',
    ),
    (
        'https://www.youtube.com/s/player/5a3b6271/player_ias.vflset/en_US/base.js',
@ -173,7 +188,7 @@ _NSIG_TESTS = [
    ),
    (
        'https://www.youtube.com/s/player/cfa9e7cb/player_ias.vflset/en_US/base.js',
-        'qO0NiMtYQ7TeJnfFG2', 'k9cuJDHNS5O7kQ',
+        'aCi3iElgd2kq0bxVbQ', 'QX1y8jGb2IbZ0w',
    ),
    (
        'https://www.youtube.com/s/player/8c7583ff/player_ias.vflset/en_US/base.js',
@ -231,10 +246,6 @@ _NSIG_TESTS = [
        'https://www.youtube.com/s/player/f6e09c70/player_ias_tce.vflset/en_US/base.js',
        'W9HJZKktxuYoDTqW', 'jHbbkcaxm54',
    ),
    (
        'https://www.youtube.com/s/player/643afba4/player_ias.vflset/en_US/base.js',
        'W9HJZKktxuYoDTqW', 'larxUlagTRAcSw',
    ),
    (
        'https://www.youtube.com/s/player/e7567ecf/player_ias_tce.vflset/en_US/base.js',
        'Sy4aDGc0VpYRR9ew_', '5UPOT1VhoZxNLQ',
@ -259,6 +270,22 @@ _NSIG_TESTS = [
        'https://www.youtube.com/s/player/643afba4/tv-player-ias.vflset/tv-player-ias.js',
        'ir9-V6cdbCiyKxhr', '2PL7ZDYAALMfmA',
    ),
    (
        'https://www.youtube.com/s/player/643afba4/player_ias.vflset/en_US/base.js',
        'W9HJZKktxuYoDTqW', 'larxUlagTRAcSw',
    ),
    (
        'https://www.youtube.com/s/player/363db69b/player_ias.vflset/en_US/base.js',
        'eWYu5d5YeY_4LyEDc', 'XJQqf-N7Xra3gg',
    ),
    (
        'https://www.youtube.com/s/player/4fcd6e4a/player_ias.vflset/en_US/base.js',
        'o_L251jm8yhZkWtBW', 'lXoxI3XvToqn6A',
    ),
    (
        'https://www.youtube.com/s/player/4fcd6e4a/tv-player-ias.vflset/tv-player-ias.js',
        'o_L251jm8yhZkWtBW', 'lXoxI3XvToqn6A',
    ),
 ]
@ -271,6 +298,8 @@ class TestPlayerInfo(unittest.TestCase):
            ('https://www.youtube.com/s/player/64dddad9/player-plasma-ias-phone-en_US.vflset/base.js', '64dddad9'),
            ('https://www.youtube.com/s/player/64dddad9/player-plasma-ias-phone-de_DE.vflset/base.js', '64dddad9'),
            ('https://www.youtube.com/s/player/64dddad9/player-plasma-ias-tablet-en_US.vflset/base.js', '64dddad9'),
            ('https://www.youtube.com/s/player/e7567ecf/player_ias_tce.vflset/en_US/base.js', 'e7567ecf'),
            ('https://www.youtube.com/s/player/643afba4/tv-player-ias.vflset/tv-player-ias.js', '643afba4'),
            # obsolete
            ('https://www.youtube.com/yts/jsbin/player_ias-vfle4-e03/en_US/base.js', 'vfle4-e03'),
            ('https://www.youtube.com/yts/jsbin/player_ias-vfl49f_g4/en_US/base.js', 'vfl49f_g4'),
@ -280,8 +309,9 @@ class TestPlayerInfo(unittest.TestCase):
            ('https://s.ytimg.com/yts/jsbin/html5player-en_US-vflXGBaUN.js', 'vflXGBaUN'),
            ('https://s.ytimg.com/yts/jsbin/html5player-en_US-vflKjOTVq/html5player.js', 'vflKjOTVq'),
        )
        ie = YoutubeIE(FakeYDL({'cachedir': False}))
        for player_url, expected_player_id in PLAYER_URLS:
-            player_id = YoutubeIE._extract_player_info(player_url)
+            player_id = ie._extract_player_info(player_url)
            self.assertEqual(player_id, expected_player_id)
@ -301,8 +331,8 @@ class TestSignature(unittest.TestCase):
 def t_factory(name, sig_func, url_pattern):
    def make_tfunc(url, sig_input, expected_sig):
        m = url_pattern.match(url)
-        assert m, '%r should follow URL format' % url
+        assert m, '{0!r} should follow URL format'.format(url)
-        test_id = m.group('id')
+        test_id = re.sub(r'[/.-]', '_', m.group('id') or m.group('compat_id'))
        def test_func(self):
            basename = 'player-{0}-{1}.js'.format(name, test_id)
@ -335,12 +365,16 @@ def n_sig(jscode, sig_input):
 make_sig_test = t_factory(
-    'signature', signature, re.compile(r'.*(?:-|/player/)(?P<id>[a-zA-Z0-9_-]+)(?:/.+\.js|(?:/watch_as3|/html5player)?\.[a-z]+)$'))
+    'signature', signature,
    re.compile(r'''(?x)
        .+/(?P<h5>html5)?player(?(h5)(?:-en_US)?-|/)(?P<id>[a-zA-Z0-9/._-]+)
        (?(h5)/(?:watch_as3|html5player))?\.js$
    '''))
 for test_spec in _SIG_TESTS:
    make_sig_test(*test_spec)
 make_nsig_test = t_factory(
-    'nsig', n_sig, re.compile(r'.+/player/(?P<id>[a-zA-Z0-9_-]+)/.+.js$'))
+    'nsig', n_sig, re.compile(r'.+/player/(?P<id>[a-zA-Z0-9_/.-]+)\.js$'))
 for test_spec in _NSIG_TESTS:
    make_nsig_test(*test_spec)
--- a/youtube_dl/extractor/extractors.py
+++ b/youtube_dl/extractor/extractors.py
@ -1078,6 +1078,10 @@ from .rutube import (
    RutubePersonIE,
    RutubePlaylistIE,
 )
 from .megatvcom import (
    MegaTVComIE,
    MegaTVComEmbedIE,
 )
 from .rutv import RUTVIE
 from .ruutu import RuutuIE
 from .ruv import RuvIE
--- a/youtube_dl/extractor/generic.py
+++ b/youtube_dl/extractor/generic.py
@ -102,6 +102,7 @@ from .ustream import UstreamIE
 from .arte import ArteTVEmbedIE
 from .videopress import VideoPressIE
 from .rutube import RutubeIE
 from .megatvcom import MegaTVComEmbedIE
 from .limelight import LimelightBaseIE
 from .anvato import AnvatoIE
 from .washingtonpost import WashingtonPostIE
@ -3400,6 +3401,12 @@ class GenericIE(InfoExtractor):
            return self.playlist_from_matches(
                rutube_urls, video_id, video_title, ie=RutubeIE.ie_key())
        # Look for megatv.com embeds
        megatvcom_urls = list(MegaTVComEmbedIE._extract_urls(webpage, url))
        if megatvcom_urls:
            return self.playlist_from_matches(
                megatvcom_urls, video_id, video_title, ie=MegaTVComEmbedIE.ie_key())
        # Look for WashingtonPost embeds
        wapo_urls = WashingtonPostIE._extract_urls(webpage)
        if wapo_urls:
--- a/youtube_dl/extractor/megatvcom.py
+++ b/youtube_dl/extractor/megatvcom.py
@ -0,0 +1,203 @@
 # coding: utf-8
 from __future__ import unicode_literals
 import hashlib
 import re
 from .common import InfoExtractor
 from ..compat import (
    compat_str,
    compat_parse_qs,
    compat_urllib_parse_urlparse,
 )
 from ..utils import (
    HEADRequest,
    ExtractorError,
    determine_ext,
    get_element_by_class,
    unified_timestamp,
    extract_attributes,
    clean_html,
    unescapeHTML,
 )
 class MegaTVComBaseIE(InfoExtractor):
    _PLAYER_DIV_ID = 'player_div_id'
    def _extract_player_attrs(self, webpage):
        PLAYER_DIV_RE = r'''(?x)
        <div(?:
            id=(?P<_q1>["'])(?P<%(pdi)s>%(pdi)s)(?P=_q1)|
            [^>]*?
        )+>
        ''' % {'pdi': self._PLAYER_DIV_ID}
        for mobj in re.finditer(PLAYER_DIV_RE, webpage):
            if mobj.group(self._PLAYER_DIV_ID):
                player_el = mobj.group(0)
                break
        else:
            raise ExtractorError('no <div id="%s"> element found in webpage' %
                                 self._PLAYER_DIV_ID)
        return {
            re.sub(r'^data-(?:kwik_)?', '', k): v
            for k, v in extract_attributes(player_el).items()
            if k not in ('id',)
        }
 class MegaTVComIE(MegaTVComBaseIE):
    IE_NAME = 'megatvcom'
    IE_DESC = 'megatv.com videos'
    _VALID_URL = r'https?://(?:www\.)?megatv\.com/(?:(?!\d{4})[^/]+/(?P<id>\d+)/[^/]+|\d{4}/\d{2}/\d{2}/.+)'
    _TESTS = [{
        'url': 'https://www.megatv.com/2021/10/23/egkainia-gia-ti-nea-skini-omega-tou-dimotikou-theatrou-peiraia/',
        'md5': '2ebe96661cb81854889053cebb661068',
        'info_dict': {
            'id': '520979',
            'ext': 'mp4',
            'title': 'md5:70eef71a9cd2c1ecff7ee428354dded2',
            'description': 'md5:0209fa8d318128569c0d256a5c404db1',
            'timestamp': 1634975747,
            'upload_date': '20211023',
        },
    }, {
        'url': 'https://www.megatv.com/tvshows/527800/epeisodio-65-12/',
        'md5': '8ab0c9d664cea11678670202b87bb2b1',
        'info_dict': {
            'id': '527800',
            'ext': 'mp4',
            'title': 'md5:fc322cb51f682eecfe2f54cd5ab3a157',
            'description': 'md5:b2b7ed3690a78f2a0156eb790fdc00df',
            'timestamp': 1636048859,
            'upload_date': '20211104',
        },
    }]
    def _match_article_id(self, webpage):
        ART_RE = r'''(?x)
        <article(?:
            id=(?P<_q2>["'])Article_(?P<article>\d+)(?P=_q2)|
            [^>]*?
        )+>
        '''
        return compat_str(self._search_regex(ART_RE, webpage, 'article_id',
                                             group='article'))
    def _real_extract(self, url):
        video_id = self._match_id(url)
        _is_article = video_id == 'None'
        webpage = self._download_webpage(url,
                                               'N/A' if _is_article else
                                               video_id)
        if _is_article:
            video_id = self._match_article_id(webpage)
        player_attrs = self._extract_player_attrs(webpage)
        title = player_attrs.get('label') or self._og_search_title(webpage)
        description = clean_html(get_element_by_class(
            'article-wrapper' if _is_article else 'story_content',
            webpage))
        if not description:
            description = self._og_search_description(webpage)
        thumbnail = player_attrs.get('image') or \
            self._og_search_thumbnail(webpage)
        timestamp = unified_timestamp(self._html_search_meta(
            'article:published_time', webpage))
        try:
            source = player_attrs['source']
        except KeyError:
            raise ExtractorError('no source found for %s' % video_id)
        formats = self._extract_m3u8_formats(source, video_id, 'mp4') \
            if determine_ext(source) == 'm3u8' else [source]
        self._sort_formats(formats)
        return {
            'id': video_id,
            'title': title,
            'description': description,
            'thumbnail': thumbnail,
            'timestamp': timestamp,
            'formats': formats,
        }
 class MegaTVComEmbedIE(MegaTVComBaseIE):
    IE_NAME = 'megatvcom:embed'
    IE_DESC = 'megatv.com embedded videos'
    _VALID_URL = r'https?://(?:www\.)?megatv\.com/embed/?\?p=\d+'
    _TESTS = [{
        'url': 'https://www.megatv.com/embed/?p=2020520979',
        'md5': '2ebe96661cb81854889053cebb661068',
        'info_dict': {
            'id': '520979',
            'ext': 'mp4',
            'title': 'md5:70eef71a9cd2c1ecff7ee428354dded2',
            'description': 'md5:0209fa8d318128569c0d256a5c404db1',
            'timestamp': 1634975747,
            'upload_date': '20211023',
        },
    }, {
        'url': 'https://www.megatv.com/embed/?p=2020534081',
        'md5': 'f9a15e315acbf01b128e8efa3f75aab3',
        'info_dict': {
            'id': '534081',
            'ext': 'mp4',
            'title': 'md5:062e9d5976ef854d8bdc1f5724d9b2d0',
            'description': 'md5:36dbe4c3762d2ede9513eea8d07f6d52',
            'timestamp': 1636376351,
            'upload_date': '20211108',
        },
    }]
    @classmethod
    def _extract_urls(cls, webpage, origin_url=None):
        # make the scheme in _VALID_URL optional
        _URL_RE = r'(?:https?:)?//' + cls._VALID_URL.split('://', 1)[1]
        EMBED_RE = r'''(?x)
            <iframe[^>]+?src=(?P<_q1>%(quot_re)s)
                (?P<url>%(url_re)s)(?P=_q1)
        ''' % {'quot_re': r'["\']', 'url_re': _URL_RE}
        for mobj in re.finditer(EMBED_RE, webpage):
            url = unescapeHTML(mobj.group('url'))
            if url.startswith('//'):
                scheme = compat_urllib_parse_urlparse(origin_url).scheme \
                    if origin_url else 'https'
                url = '%s:%s' % (scheme, url)
            yield url
    def _match_canonical_url(self, webpage):
        LINK_RE = r'''(?x)
        <link(?:
            rel=(?P<_q1>%(quot_re)s)(?P<canonical>canonical)(?P=_q1)|
            href=(?P<_q2>%(quot_re)s)(?P<href>(?:(?!(?P=_q2)).)+)(?P=_q2)|
            [^>]*?
        )+>
        ''' % {'quot_re': r'["\']'}
        for mobj in re.finditer(LINK_RE, webpage):
            canonical, href = mobj.group('canonical', 'href')
            if canonical and href:
                return unescapeHTML(href)
    def _real_extract(self, url):
        webpage = self._download_webpage(url, 'N/A')
        player_attrs = self._extract_player_attrs(webpage)
        canonical_url = player_attrs.get('share_url') or \
            self._match_canonical_url(webpage)
        if not canonical_url:
            raise ExtractorError('canonical URL not found')
        video_id = compat_parse_qs(compat_urllib_parse_urlparse(
            canonical_url).query)['p'][0]
        # Resolve the canonical URL, following redirects, and defer to
        # megatvcom, as the metadata extracted from the embeddable page some
        # times are slightly different, for the same video
        canonical_url = self._request_webpage(
            HEADRequest(canonical_url), video_id,
            note='Resolve canonical URL',
            errnote='Could not resolve canonical URL').geturl()
        return self.url_result(
            canonical_url,
            MegaTVComIE.ie_key(),
            video_id
        )
--- a/youtube_dl/extractor/youtube.py
+++ b/youtube_dl/extractor/youtube.py
@ -692,9 +692,9 @@ class YoutubeIE(YoutubeBaseInfoExtractor):
        'invidious': '|'.join(_INVIDIOUS_SITES),
    }
    _PLAYER_INFO_RE = (
-        r'/s/player/(?P<id>[a-zA-Z0-9_-]{8,})//(?:tv-)?player',
+        r'/s/player/(?P<id>[a-zA-Z0-9_-]{8,})/(?:tv-)?player',
-        r'/(?P<id>[a-zA-Z0-9_-]{8,})/player(?:_ias\.vflset(?:/[a-zA-Z]{2,3}_[a-zA-Z]{2,3})?|-plasma-ias-(?:phone|tablet)-[a-z]{2}_[A-Z]{2}\.vflset)/base\.js$',
+        r'/(?P<id>[a-zA-Z0-9_-]{8,})/player(?:_ias(?:_tce)?\.vflset(?:/[a-zA-Z]{2,3}_[a-zA-Z]{2,3})?|-plasma-ias-(?:phone|tablet)-[a-z]{2}_[A-Z]{2}\.vflset)/base\.js$',
-        r'\b(?P<id>vfl[a-zA-Z0-9_-]+)\b.*?\.js$',
+        r'\b(?P<id>vfl[a-zA-Z0-9_-]{6,})\b.*?\.js$',
    )
    _SUBTITLE_FORMATS = ('json3', 'srv1', 'srv2', 'srv3', 'ttml', 'vtt')
@ -1626,15 +1626,13 @@ class YoutubeIE(YoutubeBaseInfoExtractor):
        """ Return a string representation of a signature """
        return '.'.join(compat_str(len(part)) for part in example_sig.split('.'))
-    @classmethod
+    def _extract_player_info(self, player_url):
-    def _extract_player_info(cls, player_url):
+        try:
-        for player_re in cls._PLAYER_INFO_RE:
+            return self._search_regex(
-            id_m = re.search(player_re, player_url)
+                self._PLAYER_INFO_RE, player_url, 'player info', group='id')
-            if id_m:
+        except ExtractorError as e:
-                break
+            raise ExtractorError(
-        else:
+                'Cannot identify player %r' % (player_url,), cause=e)
            raise ExtractorError('Cannot identify player %r' % player_url)
        return id_m.group('id')
    def _load_player(self, video_id, player_url, fatal=True, player_id=None):
        if not player_id:
@ -1711,6 +1709,23 @@ class YoutubeIE(YoutubeBaseInfoExtractor):
                '    return %s\n') % (signature_id_tuple, expr_code)
        self.to_screen('Extracted signature function:\n' + code)
    def _extract_sig_fn(self, jsi, funcname):
        var_ay = self._search_regex(
            r'''(?x)
                (?:\*/|\{|\n|^)\s*(?:'[^']+'\s*;\s*)
                    (var\s*[\w$]+\s*=\s*(?:
                        ('|")(?:\\\2|(?!\2).)+\2\s*\.\s*split\(\s*('|")\W+\3\s*\)|
                        \[\s*(?:('|")(?:\\\4|(?!\4).)*\4\s*(?:(?=\])|,\s*))+\]
                    ))(?=\s*[,;])
            ''', jsi.code, 'useful values', default='')
        sig_fn = jsi.extract_function_code(funcname)
        if var_ay:
            sig_fn = (sig_fn[0], ';\n'.join((var_ay, sig_fn[1])))
        return sig_fn
    def _parse_sig_js(self, jscode):
        # Examples where `sig` is funcname:
        # sig=function(a){a=a.split(""); ... ;return a.join("")};
@ -1736,8 +1751,12 @@ class YoutubeIE(YoutubeBaseInfoExtractor):
            jscode, 'Initial JS player signature function name', group='sig')
        jsi = JSInterpreter(jscode)
-        initial_function = jsi.extract_function(funcname)
+
-        return lambda s: initial_function([s])
+        initial_function = self._extract_sig_fn(jsi, funcname)
        func = jsi.extract_function_from_code(*initial_function)
        return lambda s: func([s])
    def _cached(self, func, *cache_id):
        def inner(*args, **kwargs):
@ -1856,15 +1875,9 @@ class YoutubeIE(YoutubeBaseInfoExtractor):
    def _extract_n_function_code_jsi(self, video_id, jsi, player_id=None):
        var_ay = self._search_regex(
            r'(?:[;\s]|^)\s*(var\s*[\w$]+\s*=\s*"(?:\\"|[^"])+"\s*\.\s*split\("\W+"\))(?=\s*[,;])',
            jsi.code, 'useful values', default='')
        func_name = self._extract_n_function_name(jsi.code)
-        func_code = jsi.extract_function_code(func_name)
+        func_code = self._extract_sig_fn(jsi, func_name)
        if var_ay:
            func_code = (func_code[0], ';\n'.join((var_ay, func_code[1])))
        if player_id:
            self.cache.store('youtube-nsig', player_id, func_code)
@ -2136,7 +2149,8 @@ class YoutubeIE(YoutubeBaseInfoExtractor):
                    video_details = merge_dicts(*traverse_obj(
                        (player_response, api_player_response),
                        (Ellipsis, 'videoDetails', T(dict))))
-                    player_response.update(api_player_response or {})
+                    player_response.update(filter_dict(
                        api_player_response or {}, cndn=lambda k, _: k != 'captions'))
                    player_response['videoDetails'] = video_details
        def is_agegated(playability):
@ -2566,8 +2580,8 @@ class YoutubeIE(YoutubeBaseInfoExtractor):
        }
        pctr = traverse_obj(
-            player_response,
+            (player_response, api_player_response),
-            ('captions', 'playerCaptionsTracklistRenderer', T(dict)))
+            (Ellipsis, 'captions', 'playerCaptionsTracklistRenderer', T(dict)))
        if pctr:
            def process_language(container, base_url, lang_code, query):
                lang_subs = []
@ -2584,20 +2598,21 @@ class YoutubeIE(YoutubeBaseInfoExtractor):
            def process_subtitles():
                subtitles = {}
                for caption_track in traverse_obj(pctr, (
-                        'captionTracks', lambda _, v: v.get('baseUrl'))):
+                        Ellipsis, 'captionTracks', lambda _, v: (
                            v.get('baseUrl') and v.get('languageCode')))):
                    base_url = self._yt_urljoin(caption_track['baseUrl'])
                    if not base_url:
                        continue
                    lang_code = caption_track['languageCode']
                    if caption_track.get('kind') != 'asr':
                        lang_code = caption_track.get('languageCode')
                        if not lang_code:
                            continue
                        process_language(
                            subtitles, base_url, lang_code, {})
                        continue
                    automatic_captions = {}
                    process_language(
                        automatic_captions, base_url, lang_code, {})
                    for translation_language in traverse_obj(pctr, (
-                            'translationLanguages', lambda _, v: v.get('languageCode'))):
+                            Ellipsis, 'translationLanguages', lambda _, v: v.get('languageCode'))):
                        translation_language_code = translation_language['languageCode']
                        process_language(
                            automatic_captions, base_url, translation_language_code,
--- a/youtube_dl/jsinterp.py
+++ b/youtube_dl/jsinterp.py
@ -678,7 +678,7 @@ class JSInterpreter(object):
            return len(obj)
        try:
            return obj[int(idx)] if isinstance(obj, list) else obj[compat_str(idx)]
-        except (TypeError, KeyError, IndexError) as e:
+        except (TypeError, KeyError, IndexError, ValueError) as e:
            # allow_undefined is None gives correct behaviour
            if allow_undefined or (
                    allow_undefined is None and not isinstance(e, TypeError)):
@ -1038,6 +1038,10 @@ class JSInterpreter(object):
                    left_val = self._index(left_val, idx)
            if isinstance(idx, float):
                idx = int(idx)
            if isinstance(left_val, list) and len(left_val) <= int_or_none(idx, default=-1):
                # JS Array is a sparsely assignable list
                # TODO: handle extreme sparsity without memory bloat, eg using auxiliary dict
                left_val.extend((idx - len(left_val) + 1) * [JS_Undefined])
            left_val[idx] = self._operator(
                m.group('op'), self._index(left_val, idx) if m.group('op') else None,
                m.group('expr'), expr, local_vars, allow_recursion)
@ -1204,9 +1208,10 @@ class JSInterpreter(object):
                elif member == 'join':
                    assertion(isinstance(obj, list), 'must be applied on a list')
                    assertion(len(argvals) <= 1, 'takes at most one argument')
-                    return (',' if len(argvals) == 0 else argvals[0]).join(
+                    return (',' if len(argvals) == 0 or argvals[0] in (None, JS_Undefined)
-                        ('' if x in (None, JS_Undefined) else _js_toString(x))
+                            else argvals[0]).join(
-                        for x in obj)
+                                ('' if x in (None, JS_Undefined) else _js_toString(x))
                                for x in obj)
                elif member == 'reverse':
                    assertion(not argvals, 'does not take any arguments')
                    obj.reverse()
@ -1364,19 +1369,21 @@ class JSInterpreter(object):
        code, _ = self._separate_at_paren(func_m.group('code'))  # refine the match
        return self.build_arglist(func_m.group('args')), code
-    def extract_function(self, funcname):
+    def extract_function(self, funcname, *global_stack):
        return function_with_repr(
-            self.extract_function_from_code(*self.extract_function_code(funcname)),
+            self.extract_function_from_code(*itertools.chain(
                self.extract_function_code(funcname), global_stack)),
            'F<%s>' % (funcname,))
    def extract_function_from_code(self, argnames, code, *global_stack):
        local_vars = {}
        start = None
        while True:
-            mobj = re.search(r'function\((?P<args>[^)]*)\)\s*{', code)
+            mobj = re.search(r'function\((?P<args>[^)]*)\)\s*{', code[start:])
            if mobj is None:
                break
-            start, body_start = mobj.span()
+            start, body_start = ((start or 0) + x for x in mobj.span())
            body, remaining = self._separate_at_paren(code[body_start - 1:])
            name = self._named_object(local_vars, self.extract_function_from_code(
                [x.strip() for x in mobj.group('args').split(',')],
Author	SHA1	Message	Date
Zenon Mousmoulas	96442603e3	Merge 96a0ad4778da7f30ed5be627f2c10df6d0af3ca8 into 2b4fbfce25902d557b86b003cf48f738129efce4	2025-03-26 07:33:58 +00:00
dirkf	2b4fbfce25	[YouTube] Support player `4fcd6e4a` thx seproDev, bashonly: yt-dlp/yt-dlp#12748	2025-03-26 02:27:25 +00:00
dirkf	1bc45b8b6c	[JSInterp] Use `,` for join() with null/undefined argument Eg: [1,2,3].join(null) -> '1,2,3'	2025-03-25 22:35:06 +00:00
dirkf	b982d77d0b	[YouTube] Align signature tests with yt-dlp thx bashonly, yt-dlp/yt-dlp#12725	2025-03-25 22:35:06 +00:00
dirkf	c55dbf4838	[YouTube] Update signature extraction for players `643afba4`, `363db69b`	2025-03-25 22:35:06 +00:00
dirkf	087d865230	[YouTube] Support new player URL patterns	2025-03-25 22:35:06 +00:00
dirkf	a4fc1151f1	[JSInterp] Improve indexing * catch invalid list index with `ValueError` (eg [1, 2]['ab'] -> undefined) * allow assignment outside existing list (eg var l = [1,2]; l[9] = 0;)	2025-03-25 22:35:05 +00:00
dirkf	a464c159e6	[YouTube] Make `_extract_player_info()` use `_search_regex()`	2025-03-25 22:35:05 +00:00
dirkf	7dca08eff0	[YouTube] Also get original of translated automatic captions	2025-03-25 22:35:05 +00:00
dirkf	2239ee7965	[YouTube] Get subtitles/automatic captions from both web and API responses	2025-03-25 22:35:05 +00:00
Zenon Mousmoulas	96a0ad4778	MegaTVComEmbedIE: Make canonical URL extraction more robust	2021-11-13 11:50:22 +02:00
Zenon Mousmoulas	28fddc1758	Fix copy/paste typo	2021-11-13 11:39:29 +02:00
Zenon Mousmoulas	a5ec30e106	Address PR comments about escapes	2021-11-13 08:42:15 +02:00
Zenon Mousmoulas	34c3b06402	Add MegaTVCom IEs * Add new IEs * MegaTVComBaseIE: Base IE class * MegaTVComIE: Extract from TV VOD pages and news articles, i.e. all sorts of pages showing videos on megatv.com * MegaTVComEmbedIE: Extract iframe-embeddable megatv.com videos * When video_id is not matched in the URL, namely for news articles, extract it (article_id) from a particular element on the web page * Derive metadata and sources directly from the web page, from data attributes of the player placeholder element and other commonly used elements * Let MegaTVComEmbedIE defer to MegaTVComIE for extraction, as the metadata on the embeddable page are some times slightly different, for the same video	2021-11-11 15:40:14 +02:00