第二轮:Playwright 抓取(方案 B)
尝试
编写 fetch-wechat-article.py:
from playwright.sync_api import sync_playwright
with sync_playwright() as p:
browser = p.chromium.launch()
page = browser.new_page()
page.goto("https://mp.weixin.qq.com/s/xxxxx")
content = page.content()
结果
- WLB 测试:
403 Forbidden
- GSD 测试:
成功抓取
关键发现
IP 信誉差异:
- GSD 的 IP 能过微信检测
- WLB 的 IP 被标记为机器人
原因:
- 服务器 IP vs 住宅 IP
- 行为特征(headless 检测)
- 无有效 cookies