Merge 3630cd542375f52c82f05478228075e2b8e5fd1f into 673277e510ebd996b62a2fcc76169bf3cce29910

[YouTube] Fix 91b1569
[YouTube] Fix channel playlist extraction (#33074 )
2025-07-18 17:34:13 +09:00 · 2025-03-01 11:40:49 +00:00 · 2025-02-28 01:02:20 +00:00 · 2025-02-28 00:02:10 +00:00 · 2021-04-23 17:10:09 -04:00
4 changed files with 133 additions and 3 deletions
--- a/docs/supportedsites.md
+++ b/docs/supportedsites.md
@ -688,6 +688,7 @@
 - **ParamountNetwork**
 - **parliamentlive.tv**: UK parliament videos
 - **Patreon**
+ - **Patreon:user**: Audio posts by user
 - **pbs**: Public Broadcasting Service (PBS) and member stations: PBS: Public Broadcasting Service, APT - Alabama Public Television (WBIQ), GPB/Georgia Public Broadcasting (WGTV), Mississippi Public Broadcasting (WMPN), Nashville Public Television (WNPT), WFSU-TV (WFSU), WSRE (WSRE), WTCI (WTCI), WPBA/Channel 30 (WPBA), Alaska Public Media (KAKM), Arizona PBS (KAET), KNME-TV/Channel 5 (KNME), Vegas PBS (KLVX), AETN/ARKANSAS ETV NETWORK (KETS), KET (WKLE), WKNO/Channel 10 (WKNO), LPB/LOUISIANA PUBLIC BROADCASTING (WLPB), OETA (KETA), Ozarks Public Television (KOZK), WSIU Public Broadcasting (WSIU), KEET TV (KEET), KIXE/Channel 9 (KIXE), KPBS San Diego (KPBS), KQED (KQED), KVIE Public Television (KVIE), PBS SoCal/KOCE (KOCE), ValleyPBS (KVPT), CONNECTICUT PUBLIC TELEVISION (WEDH), KNPB Channel 5 (KNPB), SOPTV (KSYS), Rocky Mountain PBS (KRMA), KENW-TV3 (KENW), KUED Channel 7 (KUED), Wyoming PBS (KCWC), Colorado Public Television / KBDI 12 (KBDI), KBYU-TV (KBYU), Thirteen/WNET New York (WNET), WGBH/Channel 2 (WGBH), WGBY (WGBY), NJTV Public Media NJ (WNJT), WLIW21 (WLIW), mpt/Maryland Public Television (WMPB), WETA Television and Radio (WETA), WHYY (WHYY), PBS 39 (WLVT), WVPT - Your Source for PBS and More! (WVPT), Howard University Television (WHUT), WEDU PBS (WEDU), WGCU Public Media (WGCU), WPBT2 (WPBT), WUCF TV (WUCF), WUFT/Channel 5 (WUFT), WXEL/Channel 42 (WXEL), WLRN/Channel 17 (WLRN), WUSF Public Broadcasting (WUSF), ETV (WRLK), UNC-TV (WUNC), PBS Hawaii - Oceanic Cable Channel 10 (KHET), Idaho Public Television (KAID), KSPS (KSPS), OPB (KOPB), KWSU/Channel 10 & KTNW/Channel 31 (KWSU), WILL-TV (WILL), Network Knowledge - WSEC/Springfield (WSEC), WTTW11 (WTTW), Iowa Public Television/IPTV (KDIN), Nine Network (KETC), PBS39 Fort Wayne (WFWA), WFYI Indianapolis (WFYI), Milwaukee Public Television (WMVS), WNIN (WNIN), WNIT Public Television (WNIT), WPT (WPNE), WVUT/Channel 22 (WVUT), WEIU/Channel 51 (WEIU), WQPT-TV (WQPT), WYCC PBS Chicago (WYCC), WIPB-TV (WIPB), WTIU (WTIU), CET  (WCET), ThinkTVNetwork (WPTD), WBGU-TV (WBGU), WGVU TV (WGVU), NET1 (KUON), Pioneer Public Television (KWCM), SDPB Television (KUSD), TPT (KTCA), KSMQ (KSMQ), KPTS/Channel 8 (KPTS), KTWU/Channel 11 (KTWU), East Tennessee PBS (WSJK), WCTE-TV (WCTE), WLJT, Channel 11 (WLJT), WOSU TV (WOSU), WOUB/WOUC (WOUB), WVPB (WVPB), WKYU-PBS (WKYU), KERA 13 (KERA), MPBN (WCBB), Mountain Lake PBS (WCFE), NHPTV (WENH), Vermont PBS (WETK), witf (WITF), WQED Multimedia (WQED), WMHT Educational Telecommunications (WMHT), Q-TV (WDCQ), WTVS Detroit Public TV (WTVS), CMU Public Television (WCMU), WKAR-TV (WKAR), WNMU-TV Public TV 13 (WNMU), WDSE - WRPT (WDSE), WGTE TV (WGTE), Lakeland Public Television (KAWE), KMOS-TV - Channels 6.1, 6.2 and 6.3 (KMOS), MontanaPBS (KUSM), KRWG/Channel 22 (KRWG), KACV (KACV), KCOS/Channel 13 (KCOS), WCNY/Channel 24 (WCNY), WNED (WNED), WPBS (WPBS), WSKG Public TV (WSKG), WXXI (WXXI), WPSU (WPSU), WVIA Public Media Studios (WVIA), WTVI (WTVI), Western Reserve PBS (WNEO), WVIZ/PBS ideastream (WVIZ), KCTS 9 (KCTS), Basin PBS (KPBT), KUHT / Channel 8 (KUHT), KLRN (KLRN), KLRU (KLRU), WTJX Channel 12 (WTJX), WCVE PBS (WCVE), KBTC Public Television (KBTC)
 - **PearVideo**
 - **PeerTube**
--- a/youtube_dl/extractor/extractors.py
+++ b/youtube_dl/extractor/extractors.py
@ -918,7 +918,10 @@ from .palcomp3 import (
 )
 from .pandoratv import PandoraTVIE
 from .parliamentliveuk import ParliamentLiveUKIE
-from .patreon import PatreonIE
+from .patreon import (
+    PatreonIE,
+    PatreonUserIE,
+)
 from .pbs import PBSIE
 from .pearvideo import PearVideoIE
 from .peekvids import (
--- a/youtube_dl/extractor/patreon.py
+++ b/youtube_dl/extractor/patreon.py
@ -13,6 +13,14 @@ from ..utils import (
    try_get,
 )

+from selenium import webdriver
+from selenium.webdriver.support.ui import WebDriverWait
+from selenium.webdriver.support import expected_conditions as EC
+from selenium.webdriver.common.by import By
+from selenium.common.exceptions import TimeoutException
+
+import re
+

 class PatreonIE(InfoExtractor):
    _VALID_URL = r'https?://(?:www\.)?patreon\.com/(?:creation\?hid=|posts/(?:[\w-]+-)?)(?P<id>\d+)'
@ -154,3 +162,76 @@ class PatreonIE(InfoExtractor):
                })

        return info
+
+
+class PatreonUserIE(PatreonIE):
+    IE_NAME = 'Patreon:user'
+    IE_DESC = 'Audio posts by user'
+    _VALID_URL = r'https?://(?:www\.)?patreon\.com/(?P<id>\w+)(?!.)'
+    _TESTS = [
+        # Standard
+        {
+            'url': 'https://www.patreon.com/joshuacitarella',
+            'info_dict': {
+                'id': 'joshuacitarella',
+                'title': "joshuacitarella's audio posts",
+            },
+            'playlist_mincount': 4,
+        },
+        # All Private
+        {
+            'url': 'https://www.patreon.com/juicysoup',
+            'info_dict': {
+                'id': 'juicysoup',
+                'title': "juicysoup's audio posts",
+            },
+            'playlist_mincount': 0,
+        }
+    ]
+
+    def _real_extract(self, url):
+        video_id = self._match_id(url)
+
+        # Start Selenium Chromedriver
+        options = webdriver.chrome.options.Options()
+        options.add_argument("headless")
+        driver = webdriver.Chrome(options=options)
+        driver.get(url)
+        delay = 10  # Seconds
+
+        try:
+            # Wait for audio elements to load
+            WebDriverWait(driver, delay).until(
+                EC.presence_of_element_located((By.TAG_NAME, 'audio')))
+            webpage = driver.page_source
+
+            # Find unique elements matching regex
+            elements = re.findall(
+                r'(?P<href>https?://(?:www\.)?patreon\.com/(?:creation\?hid=|posts/(?:[\w-]+-)?)(?P<vid>\d+))',
+                webpage)
+            hrefs = set()
+            for element in elements:
+                hrefs.add(element)
+
+            # Check whether elements are an audio post
+            real_hrefs = []
+            for href in hrefs:
+                post = self._download_json(
+                    'https://www.patreon.com/api/posts/' + href[1], href[1])
+                post_type = post.get('data').get('attributes').get('post_type')
+                if post_type == 'audio_file':
+                    real_hrefs.append(href[0])
+                else:
+                    print("Not an audio post: {}".format(href[0]))
+
+        except TimeoutException:
+            print("Loading took too much time or no audio files found!")
+            driver.quit()
+            return self.playlist_result([], video_id, video_id + "'s audio posts")
+
+        # Create list of info dicts
+        entries = [self.url_result(link, PatreonIE.ie_key()) for link in real_hrefs]
+
+        # Clean up and return playlist object
+        driver.quit()
+        return self.playlist_result(entries, video_id, video_id + "'s audio posts")
--- a/youtube_dl/extractor/youtube.py
+++ b/youtube_dl/extractor/youtube.py
@ -27,6 +27,7 @@ from ..compat import (
 )
 from ..jsinterp import JSInterpreter
 from ..utils import (
+    bug_reports_message,
    clean_html,
    dict_get,
    error_to_compat_str,
@ -65,6 +66,7 @@ from ..utils import (
    url_or_none,
    urlencode_postdata,
    urljoin,
+    variadic,
 )


@ -460,6 +462,26 @@ class YoutubeBaseInfoExtractor(InfoExtractor):
            'uploader': uploader,
        }

+    @staticmethod
+    def _extract_thumbnails(data, *path_list, **kw_final_key):
+        """
+        Extract thumbnails from thumbnails dict
+        @param path_list: path list to level that contains 'thumbnails' key
+        """
+        final_key = kw_final_key.get('final_key', 'thumbnails')
+
+        return traverse_obj(data, ((
+            tuple(variadic(path) + (final_key, Ellipsis)
+                  for path in path_list or [()])), {
+            'url': ('url', T(url_or_none),
+                    # Sometimes youtube gives a wrong thumbnail URL. See:
+                    # https://github.com/yt-dlp/yt-dlp/issues/233
+                    # https://github.com/ytdl-org/youtube-dl/issues/28023
+                    T(lambda u: update_url(u, query=None) if u and 'maxresdefault' in u else u)),
+            'height': ('height', T(int_or_none)),
+            'width': ('width', T(int_or_none)),
+        }, T(lambda t: t if t.get('url') else None)))
+
    def _search_results(self, query, params):
        data = {
            'context': {
@ -3183,8 +3205,12 @@ class YoutubeTabIE(YoutubeBaseInfoExtractor):
            expected_type=txt_or_none)

    def _grid_entries(self, grid_renderer):
-        for item in grid_renderer['items']:
-            if not isinstance(item, dict):
+        for item in traverse_obj(grid_renderer, ('items', Ellipsis, T(dict))):
+            lockup_view_model = traverse_obj(item, ('lockupViewModel', T(dict)))
+            if lockup_view_model:
+                entry = self._extract_lockup_view_model(lockup_view_model)
+                if entry:
+                    yield entry
                continue
            renderer = self._extract_grid_item_renderer(item)
            if not isinstance(renderer, dict):
@ -3268,6 +3294,25 @@ class YoutubeTabIE(YoutubeBaseInfoExtractor):
                continue
            yield self._extract_video(renderer)

+    def _extract_lockup_view_model(self, view_model):
+        content_id = view_model.get('contentId')
+        if not content_id:
+            return
+        content_type = view_model.get('contentType')
+        if content_type not in ('LOCKUP_CONTENT_TYPE_PLAYLIST', 'LOCKUP_CONTENT_TYPE_PODCAST'):
+            self.report_warning(
+                'Unsupported lockup view model content type "{0}"{1}'.format(content_type, bug_reports_message()), only_once=True)
+            return
+        return merge_dicts(self.url_result(
+            update_url_query('https://www.youtube.com/playlist', {'list': content_id}),
+            ie=YoutubeTabIE.ie_key(), video_id=content_id), {
+                'title': traverse_obj(view_model, (
+                    'metadata', 'lockupMetadataViewModel', 'title', 'content', T(compat_str))),
+                'thumbnails': self._extract_thumbnails(view_model, (
+                    'contentImage', 'collectionThumbnailViewModel', 'primaryThumbnail',
+                    'thumbnailViewModel', 'image'), final_key='sources'),
+        })
+
    def _video_entry(self, video_renderer):
        video_id = video_renderer.get('videoId')
        if video_id:
Author	SHA1	Message	Date
Kanu Gaba	f47137a49b	Merge 3630cd542375f52c82f05478228075e2b8e5fd1f into 673277e510ebd996b62a2fcc76169bf3cce29910	2025-03-01 11:40:49 +00:00
dirkf	673277e510	[YouTube] Fix 91b1569	2025-02-28 01:02:20 +00:00
dirkf	91b1569f68	[YouTube] Fix channel playlist extraction (#33074 ) * [YouTube] Extract playlist items from LOCKUP_VIEW_MODEL_... * resolves #33073 * thx seproDev (yt-dlp/yt-dlp#11615) Co-authored-by: sepro <sepro@sepr0.com>	2025-02-28 00:02:10 +00:00
Kanu Gaba	3630cd5423	[patreon:user] Add new extractor	2021-04-23 17:10:09 -04:00