<acronym id="indot"><dfn id="indot"></dfn></acronym>
<span id="indot"></span>

<bdo id="indot"><meter id="indot"></meter></bdo>
<label id="indot"><samp id="indot"></samp></label>
<label id="indot"><xmp id="indot">
  • <span id="indot"><table id="indot"></table></span>
    <center id="indot"><optgroup id="indot"></optgroup></center>
  • <bdo id="indot"><meter id="indot"></meter></bdo>
      當前位置:首頁 > 其它 > 正文內容

      puppeteer 如何避免爬取網站需要重復登錄的情況

      hxing6411年前 (2024-03-21)其它5301

      問題:

      當我們爬取某個網站時,有些網站可能需要登錄才能獲取到數據,但是當我們通過 puppeteer 啟動瀏覽器后,發現瀏覽器的登錄信息不存在了,即使你在打開后手動登錄了網站,當你重新啟動程序后,又需要重新登錄,導致我們沒辦法獲取到這個網站數據。


      解決方案:

      我們可以把 啟動瀏覽器 和 應用程序的動作分開。

      Chrome瀏覽器是支持遠程調試模式的。Puppeteer 可以通過websocket連接chrome瀏覽器


      實現步驟:

      1.  找到Chrome安裝路徑

        瀏覽器地址輸入 chrome://version 如下圖,把這個地址復制,如下圖

        image.png

      2. CMD命令行中輸入  C:\Program Files\Google\Chrome\Application\chrome --remote-debugging-port=8888  ,  端口改成你想監聽的端口,當然如果配置了環境變量的話可以直接輸入 chrome --remote-debugging-port=8888

      3. 測試端口是否已經被監聽

      netstat -ano | findstr :8888

      image.png

      如果出現上圖表明已經監聽好了


      4. 打開網址:http://127.0.0.1:8888/json/version,出現下圖,記住該webSocket地址

      image.png


      5. 代碼鏈接Chrome瀏覽器


      const puppeteer = require('puppeteer-core')
      var address = 'ws://127.0.0.1:8888/devtools/browser/6664816b-f32b-44b2-998b-9a59e4b3a714'  // 復制剛才的地址
      const browser = await puppeteer.connect({
          browserWSEndpoint: address,
      });
      const page = await browser.newPage();
      await page.goto('http://www.baidu.com')


      以上示例代碼,啟動后將打開百度頁面,并且會保存你的登錄信息,大功告成啦!希望對您有幫助,感謝閱讀!


      掃描二維碼推送至手機訪問。

      版權聲明:本文由星星博客發布,如需轉載請注明出處。

      本文鏈接:http://www.7811333.com/?id=523

      分享給朋友:

      “puppeteer 如何避免爬取網站需要重復登錄的情況” 的相關文章

      php study Apache 設置偽靜態

      php study Apache 設置偽靜態

      <IfModule mod_rewrite.c> Options +FollowSymlinks -Multiviews RewriteEngine On RewriteCond %{REQUEST_FILENAME} !...

      wordpress中新增一個字段名,報錯 ERROR 1067 (42000): Invalid default value for ‘post_date

      可以直接修改my.cnf文件例如:     vim /etc/my.cnf在[mysqld]下面添加如下列:sql_mode=ONLY_FULL_GROUP_BY,STRICT_TRANS_TABLES,ERROR_FOR_DIVISION_BY_ZERO,NO_AUT...

      前后端都用得上的 Nginx 日常使用經驗

      前后端都用得上的 Nginx 日常使用經驗

      nginx 是一個高性能的開源反向代理服務器和 web 服務器,一般用來搭建靜態資源服務器、負載均衡器、反向代理,本文將分享其在 Windows/docker 中的使用,使用 nssm 部署成服務的方案腳本,局域網中自定義域名解決https提示不安全的解決方案,以及一路踩過的坑。特點高性能:事件驅動...

      seo學習知識點記錄

      seo學習知識點記錄

      (1)高質量頁面心法:不要做你想做的,要做用戶和百度喜歡的。(2)同樣的內容,別人有排名,你沒有排名:權重、域名、內鏈、外鏈綜合因素導致(3)在你成為內行之前,你所有的想法都是垃圾,同行沒有做的不要做(4)seo雷區:政治、宗教、民族、色情、迷信、新聞搬運、醫療。新聞搬運可以做,但是盡量不要做,可能...

      winar命令行解壓/壓縮文件操作

      解壓文件:WinRAR x test.rar /test以上命令執行將 test.rar 解壓到 test 文件夾中壓縮文件:WinRAR a -afzip test.zip test這個命令將文件夾 foldername 壓縮成...

      使用PHP8.2.9后,程序報錯  could not find driver

      使用PHP8.2.9后,程序報錯 could not find driver

      今天換了PHP版本后,運行項目出現 could not find driver解決思路:打開php.ini文件,檢查配置文件中是否有  extension=pdo_mysql  是否已經打開php.ini 中 查找 extension_dir屬性是否正確,檢查...

      發表評論

      訪客

      ◎歡迎參與討論,請在這里發表您的看法和觀點。
      主站蜘蛛池模板: 色婷婷六月亚洲综合香蕉| 国产成人精品综合久久久久| 久久综合久久久久| 97色伦图片97综合影院久久| 亚洲国产综合精品| 色综合伊人色综合网站| 琪琪五月天综合婷婷| 狠狠色狠狠色综合系列| 国产精品综合在线| 亚洲综合校园春色| 亚洲国产综合无码一区二区二三区| 九九久久99综合一区二区| 小说区图片区综合久久88| 91精品国产综合久久青草| 亚洲国产综合精品中文字幕| AV色综合久久天堂AV色综合在| 精品综合久久久久久88小说| 色综合久久综精品| 久久99国产综合精品免费| 狠色狠色狠狠色综合久久| 色综合久久88色综合天天 | 亚洲综合偷自成人网第页色| 久久狠狠色狠狠色综合| 伊人狠狠色丁香综合尤物| 亚洲 自拍 另类小说综合图区| 久久久久久久综合狠狠综合| 99久久国产综合精品五月天| 奇米综合四色77777久久| 91精品国产色综合久久不卡蜜| 色妞色综合久久夜夜| 久久综合综合久久| 婷婷四房综合激情五月在线| 久久综合精品不卡一区二区| 浪潮AV色综合久久天堂| 亚洲人成综合在线播放| 亚洲AV综合永久无码精品天堂| 色噜噜久久综合伊人一本| 国产精品亚洲综合天堂夜夜| 香蕉国产综合久久猫咪| 国内精品综合久久久40p| 色拍自拍亚洲综合图区|