我正在制作一個簡單的抓取算法來提取產品的 GTIN。我能夠抓取 html 并精確定位 GTIN 編號,但我想知道將其抓取為整數的最佳方法是什么。此外,我如何抓取像content=這樣的內容并獲取其指定的編號?import requestsfrom bs4 import BeautifulSouptesting_link = 'https://www.walmart.com/ip/Better-Homes-Gardens-Leighton-Nightstand-Rustic-Cherry-Finish/54445647'URL = testing_linkpage = requests.get(URL)soup = BeautifulSoup(page.content, 'html.parser')results = soup.find(itemprop='gtin13')print(results.prettify())當我運行這個時,我得到<span content="0042666029322" itemprop="gtin13"></span>我希望能夠獲得0042666029322作為整數供以后使用,有什么建議嗎?
1 回答

冉冉說
TA貢獻1877條經驗 獲得超1個贊
你不能這樣做,前導零意味著 Python 中的八進制。您可以保存為字符串,然后將其轉換為 int。
>>> content = results.get('content')
>>> print(content)
0042666029322
>>> print(int(content))
42666029322
添加回答
舉報
0/150
提交
取消