首頁猿問如何使用網絡抓取獲取推文的內容

如何使用網絡抓取獲取推文的內容

JavaScript

蕭十郎 2022-10-27 16:58:00

我嘗試過使用 puppeteer，但是我會嘗試通過傳入 x-path 來獲取信息，它永遠不會返回任何信息。完全相同的程序適用于不同的網站，但不適用于 Twitter。有沒有辦法使用 Cheerio 或其他方法獲取推文的內容？我可以訪問 twitter API，但是文檔很難理解。編輯代碼：這是我的 pupputeer 代碼，它出于某種原因掛在 await page.waitfornavigation() 僅用于 twitter。對于任何其他網站，這都有效。const Apify = require('apify'); var OldAlphaAIData = {TICKER:"", REF:"", SIGNAL:""} Apify.main(async () => { const input = await Apify.getValue('INPUT'); const browser = await Apify.launchPuppeteer(); const page = await browser.newPage(); await page.goto('https://twitter.com/MarketsTicker'); await page.waitForNavigation(); do { console.log('ffff'); var timenow = new Date(); //Get Date timenow.setHours(timenow.getHours() + 1); var AlphaAIData = {TICKER:"", REF:"", SIGNAL:""}; var everything; var everythingarray = []; //xpath to 1st twitter message const [el0] = await page.$x('/html/body/div/div/div/div[2]/main/div/div/div/div[1]/div/div[2]/div/div/div[2]/section/div/div/div/div[1]'); const txt0 = await el0.getProperty('textContent'); everything = await txt0.jsonValue(); console.log(everything); }while(true);});

查看完整描述

1 回答

米脂

TA貢獻1836條經驗獲得超3個贊

不確定您嘗試從每條推文中提取的確切內容以及您如何解決問題，但twitter 模塊的文檔非常簡單，假設您正在使用基于問題標簽的節點。

var Twitter = require('twitter');

var client = new Twitter({

consumer_key: '',

consumer_secret: '',

access_token_key: '',

access_token_secret: ''

});

var params = {screen_name: 'nodejs'};

client.get('statuses/user_timeline', params, function(error, tweets, response) {

if (!error) {

console.log(tweets);

}

});

當然，要實現這一點，您需要注冊訪問 API 并使用適當的變量（如 consumer_key、consumer_secret 等）提供這些詳細信息。

更新：我已經設法讓您的代碼在 twitter 上運行，請查看以下更改，最重要的是await page.waitForXPath(xpath);，它在嘗試獲取其內容之前等待 xpath 首先加載。xpath 也不同，我在 DOM 內部進一步指出了保存消息的跨度。

const Apify = require('apify');

var OldAlphaAIData = { TICKER: "", REF: "", SIGNAL: "" }

Apify.main(async () => {

const input = await Apify.getValue('INPUT');

const browser = await Apify.launchPuppeteer();

const page = await browser.newPage();

const navigationPromise = page.waitForNavigation();

await page.goto('https://twitter.com/MarketsTicker')

await navigationPromise

console.log('ffff');

var timenow = new Date(); //Get Date

timenow.setHours(timenow.getHours() + 1);

var AlphaAIData = { TICKER: "", REF: "", SIGNAL: "" };

var everything;

var everythingarray = [];

//xpath to 1st twitter message

const xpath = '/html/body/div/div/div/div[2]/main/div/div/div/div/div/div/div/div/div[2]/section/div/div/div/div[1]/div/div/article/div/div/div/div[2]/div[2]/div[2]/div[1]/div/span';

await page.waitForXPath(xpath);

const [el0] = await page.$x(xpath);

const txt0 = await el0.getProperty('textContent');

everything = await txt0.jsonValue();

console.log(everything);

});

為簡單起見，我刪除了無限循環，因為它無限期地打印第一條推文。

反對回復 2022-10-27

1 回答
0 關注
162 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

如何使用網絡抓取獲取推文的內容

如何使用網絡抓取獲取推文的內容

1 回答

添加回答