亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

從 alibaba 中刪除類別及其 url 并將其放在兩列中

從 alibaba 中刪除類別及其 url 并將其放在兩列中

HUWWW 2021-05-31 15:38:12
我正在嘗試從阿里巴巴的“產品按類別”頁面中刪除類別和類別的 URL 。我正在嘗試抓取它并將其放在一個 CSV 文件中。這是我在電子表格中打開它時想要給出的視圖是:-categories                           categories_urlsAgricultural Growing Media           its URLAnimal Products                      its URL.                                    ..                                    ..                                    .代碼:-# -*- coding: utf-8 -*-import scrapyclass AlibabaCatagoriesSpider(scrapy.Spider):name = 'alibaba_catagories'allowed_domains = ['alibaba.com']start_urls = ['https://www.alibaba.com/Products?spm=a2700.8293689.scGlobalHomeHeader.352.2ce265aa7GOmOF']def parse(self, response):    a = response.css('ul.sub-item-cont')    for catag in a:        item = {           'categories': catag.css('li>a::text').extract(),           'categories_url': catag.css('li>a::attr(href)').extract()            }        yield item問題\n 和空白在抓取類別時被抓取。數據沒有以理想的格式抓取你怎么能幫忙修改代碼,這樣我們就可以擁有給出在抓取時刪除 \n 和空白的技巧理想的格式。
查看完整描述

3 回答

?
慕仙森

TA貢獻1827條經驗 獲得超8個贊

使用 Scrapy 非常簡單:


def parse(self, response):


    for category_node in response.xpath('//ul[contains(@class, "sub-item-cont")]/li/a'):


        item = {

           'categories': category_node.xpath('./text()').extract_first().strip(),

           'categories_url': category_node.xpath('./@href').extract_first()

        }

        yield item


查看完整回答
反對 回復 2021-06-08
?
慕姐8265434

TA貢獻1813條經驗 獲得超2個贊

嘗試以下選擇器

list(map(lambda x: x.replace('\n', '').strip(), response.xpath('//*[@class="cg-main"]//*[contains(@class, "sub-item-cont")]//li/a[@href]/text()').extract()))



查看完整回答
反對 回復 2021-06-08
  • 3 回答
  • 0 關注
  • 158 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號