當前位置：首頁 > 其它 > 正文內容

puppeteer 如何避免爬取網站需要重復登錄的情況

hxing6411年前 (2024-03-21)其它5301

問題：

當我們爬取某個網站時，有些網站可能需要登錄才能獲取到數據，但是當我們通過 puppeteer 啟動瀏覽器后，發現瀏覽器的登錄信息不存在了，即使你在打開后手動登錄了網站，當你重新啟動程序后，又需要重新登錄，導致我們沒辦法獲取到這個網站數據。

解決方案：

我們可以把啟動瀏覽器和應用程序的動作分開。

Chrome瀏覽器是支持遠程調試模式的。Puppeteer 可以通過websocket連接chrome瀏覽器

實現步驟：

找到Chrome安裝路徑
瀏覽器地址輸入 chrome://version 如下圖，把這個地址復制，如下圖
CMD命令行中輸入 C:\Program Files\Google\Chrome\Application\chrome --remote-debugging-port=8888 , 端口改成你想監聽的端口，當然如果配置了環境變量的話可以直接輸入 chrome --remote-debugging-port=8888
測試端口是否已經被監聽

netstat -ano | findstr :8888

如果出現上圖表明已經監聽好了

4. 打開網址：http://127.0.0.1:8888/json/version，出現下圖，記住該webSocket地址

5. 代碼鏈接Chrome瀏覽器

const puppeteer = require('puppeteer-core')
var address = 'ws://127.0.0.1:8888/devtools/browser/6664816b-f32b-44b2-998b-9a59e4b3a714'  // 復制剛才的地址
const browser = await puppeteer.connect({
    browserWSEndpoint: address,
});
const page = await browser.newPage();
await page.goto('http://www.baidu.com')

以上示例代碼，啟動后將打開百度頁面，并且會保存你的登錄信息，大功告成啦！希望對您有幫助，感謝閱讀！

掃描二維碼推送至手機訪問。

本文鏈接：http://www.7811333.com/?id=523

分享給朋友：

返回列表

上一篇：SwitchyOmega谷歌擴展文件下載后會被瀏覽器自動刪除

下一篇：微信支付 redirect_uri 提示協議與后臺配置不一致，錯誤碼:10039

“puppeteer 如何避免爬取網站需要重復登錄的情況” 的相關文章

php study Apache 設置偽靜態

<IfModule mod_rewrite.c> Options +FollowSymlinks -Multiviews RewriteEngine On RewriteCond %{REQUEST_FILENAME} !...

wordpress中新增一個字段名，報錯 ERROR 1067 (42000): Invalid default value for ‘post_date

可以直接修改my.cnf文件例如： vim /etc/my.cnf在[mysqld]下面添加如下列：sql_mode=ONLY_FULL_GROUP_BY,STRICT_TRANS_TABLES,ERROR_FOR_DIVISION_BY_ZERO,NO_AUT...

前后端都用得上的 Nginx 日常使用經驗

nginx 是一個高性能的開源反向代理服務器和 web 服務器，一般用來搭建靜態資源服務器、負載均衡器、反向代理，本文將分享其在 Windows/docker 中的使用,使用 nssm 部署成服務的方案腳本，局域網中自定義域名解決https提示不安全的解決方案，以及一路踩過的坑。特點高性能：事件驅動...

seo學習知識點記錄

（1）高質量頁面心法：不要做你想做的，要做用戶和百度喜歡的。（2）同樣的內容，別人有排名，你沒有排名：權重、域名、內鏈、外鏈綜合因素導致（3）在你成為內行之前，你所有的想法都是垃圾，同行沒有做的不要做（4）seo雷區：政治、宗教、民族、色情、迷信、新聞搬運、醫療。新聞搬運可以做，但是盡量不要做，可能...

winar命令行解壓/壓縮文件操作

解壓文件：WinRAR x test.rar /test以上命令執行將 test.rar 解壓到 test 文件夾中壓縮文件：WinRAR a -afzip test.zip test這個命令將文件夾 foldername 壓縮成...

使用PHP8.2.9后，程序報錯 could not find driver

今天換了PHP版本后，運行項目出現 could not find driver解決思路：打開php.ini文件，檢查配置文件中是否有 extension=pdo_mysql 是否已經打開php.ini 中查找 extension_dir屬性是否正確，檢查...

發表評論

puppeteer 如何避免爬取網站需要重復登錄的情況

問題：