Scrape actors urls

modified: youtube_dl/extractor/sxyprn.py
2025-09-12 12:54:14 +09:00 · 2022-02-26 13:28:16 +01:00 · 2022-02-26 13:28:16 +01:00 · c8c3585ae2
commit c8c3585ae2
parent 64f9e5f6b1
1 changed files with 5 additions and 4 deletions
--- a/youtube_dl/extractor/sxyprn.py
+++ b/youtube_dl/extractor/sxyprn.py
@ -25,7 +25,7 @@ class SxyPrnIE(InfoExtractor):
            'uploader': 'SmokeCrumb',
            'uploader_id': 'SmokeCrumb',
            'uploader_url': 'https://sxyprn.com/blog/608a6b540ee7b/0.html',
-            'actors': [{'given_name': 'Nicole Love'}, {'given_name': 'Cindy Shine'}],
+            'actors': [{'given_name': 'Nicole Love', 'url': 'https://sxyprn.com/Nicole-Love.html'}, {'given_name': 'Cindy Shine', 'url': 'https://sxyprn.com/Cindy-Shine.html'}],
            'views': int,
        },
        'params': {
@ -65,11 +65,12 @@ class SxyPrnIE(InfoExtractor):
        tags = self._search_regex(r'<meta name="keywords".+content="(?P<tags>.+)"', webpage, 'tags', group='tags').split(', ')
        uploader = self._search_regex(r'<div class=\'pes_author_div pes_edit_div transition\'.+?>.+?<span class=\'a_name\'>(?P<uploader>.+?)<', webpage, 'uploader', group='uploader')
        uploader_url = urljoin(url, self._search_regex(r'<div class=\'pes_author_div pes_edit_div transition\'.+?><a href=\'(?P<uploader_url>.+?)\'.+?<span class=\'a_name\'>(?P<uploader>.+?)<', webpage, 'uploader_url', group='uploader_url'))
-        actors_names = re.findall(r'<span>·</span><b>(?P<actor>.+?)</b>', webpage)
+        actors_data = re.findall(r'<a href=\'(?P<actor_url>.+?)\' class=\'tdn htag_rel_a\'><div class=\'htag_rel\'><span>·</span><b>(?P<actor_name>.+?)</b>', webpage)
        actors = []
-        for name in actors_names:
+        for actor_tuple in actors_data:
            actors.append({
-                'given_name': name
+                'given_name': actor_tuple[1],
+                'url': urljoin(url, actor_tuple[0])
            })
        views = int(self._search_regex(r'<div class=\'post_control_time\'>.+?</strong> (?P<views>.+) views</div>', webpage, 'views', group='views'))