亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

如何使用網絡抓取獲取推文的內容

如何使用網絡抓取獲取推文的內容

蕭十郎 2022-10-27 16:58:00
我嘗試過使用 puppeteer,但是我會嘗試通過傳入 x-path 來獲取信息,它永遠不會返回任何信息。完全相同的程序適用于不同的網站,但不適用于 Twitter。有沒有辦法使用 Cheerio 或其他方法獲取推文的內容?我可以訪問 twitter API,但是文檔很難理解。編輯代碼:這是我的 pupputeer 代碼,它出于某種原因掛在 await page.waitfornavigation() 僅用于 twitter。對于任何其他網站,這都有效。const Apify = require('apify'); var OldAlphaAIData = {TICKER:"", REF:"", SIGNAL:""} Apify.main(async () => {    const input = await Apify.getValue('INPUT');     const browser = await Apify.launchPuppeteer();    const page = await browser.newPage();    await page.goto('https://twitter.com/MarketsTicker');    await page.waitForNavigation();    do    {        console.log('ffff');        var timenow = new Date(); //Get Date        timenow.setHours(timenow.getHours() + 1);        var AlphaAIData = {TICKER:"", REF:"", SIGNAL:""};        var everything;        var everythingarray = [];         //xpath to 1st twitter message              const [el0] = await page.$x('/html/body/div/div/div/div[2]/main/div/div/div/div[1]/div/div[2]/div/div/div[2]/section/div/div/div/div[1]');            const txt0 = await el0.getProperty('textContent');        everything = await txt0.jsonValue();        console.log(everything);    }while(true);});
查看完整描述

1 回答

?
米脂

TA貢獻1836條經驗 獲得超3個贊

不確定您嘗試從每條推文中提取的確切內容以及您如何解決問題,但twitter 模塊的文檔非常簡單,假設您正在使用基于問題標簽的節點。


var Twitter = require('twitter');

 

var client = new Twitter({

  consumer_key: '',

  consumer_secret: '',

  access_token_key: '',

  access_token_secret: ''

});

 

var params = {screen_name: 'nodejs'};

client.get('statuses/user_timeline', params, function(error, tweets, response) {

  if (!error) {

    console.log(tweets);

  }

});

當然,要實現這一點,您需要注冊訪問 API 并使用適當的變量(如 consumer_key、consumer_secret 等)提供這些詳細信息。


更新:我已經設法讓您的代碼在 twitter 上運行,請查看以下更改,最重要的是await page.waitForXPath(xpath);,它在嘗試獲取其內容之前等待 xpath 首先加載。xpath 也不同,我在 DOM 內部進一步指出了保存消息的跨度。


const Apify = require('apify');


var OldAlphaAIData = { TICKER: "", REF: "", SIGNAL: "" }

Apify.main(async () => {

    const input = await Apify.getValue('INPUT');


    const browser = await Apify.launchPuppeteer();

    const page = await browser.newPage();

    const navigationPromise = page.waitForNavigation();

    await page.goto('https://twitter.com/MarketsTicker')

    await navigationPromise


    console.log('ffff');

    var timenow = new Date(); //Get Date

    timenow.setHours(timenow.getHours() + 1);

    var AlphaAIData = { TICKER: "", REF: "", SIGNAL: "" };

    var everything;

    var everythingarray = [];


    //xpath to 1st twitter message      

    const xpath = '/html/body/div/div/div/div[2]/main/div/div/div/div/div/div/div/div/div[2]/section/div/div/div/div[1]/div/div/article/div/div/div/div[2]/div[2]/div[2]/div[1]/div/span';

    await page.waitForXPath(xpath);

    const [el0] = await page.$x(xpath);

    const txt0 = await el0.getProperty('textContent');

    everything = await txt0.jsonValue();

    console.log(everything);


});

為簡單起見,我刪除了無限循環,因為它無限期地打印第一條推文。


查看完整回答
反對 回復 2022-10-27
  • 1 回答
  • 0 關注
  • 153 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號