亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

無法消除 process_exception 引發的一些錯誤

無法消除 process_exception 引發的一些錯誤

慕萊塢森 2023-08-22 14:45:28
我試圖不顯示/獲取 scrapy 中拋出的一些process_response錯誤RetryMiddleware。超過最大重試限制時腳本遇到的錯誤。我在中間件中使用了代理。奇怪的是腳本拋出的異常已經在列表中EXCEPTIONS_TO_RETRY。腳本有時可能會超過最大重試次數而沒有成功,這是完全可以的。但是,我只是不希望看到該錯誤,即使它存在,這意味著抑制或繞過它。錯誤是這樣的:Traceback (most recent call last):  File "middleware.py", line 43, in process_request    defer.returnValue((yield download_func(request=request,spider=spider)))twisted.internet.error.TCPTimedOutError: TCP connection timed out: 10060: A connection attempt failed because the connected party did not properly respond after a period of time, or established connection failed because connected host has failed to respond..這是process_response里面的RetryMiddleware樣子:class RetryMiddleware(object):    cus_retry = 3    EXCEPTIONS_TO_RETRY = (defer.TimeoutError, TimeoutError, DNSLookupError, \        ConnectionRefusedError, ConnectionDone, ConnectError, \        ConnectionLost, TCPTimedOutError, TunnelError, ResponseFailed)    def process_exception(self, request, exception, spider):        if isinstance(exception, self.EXCEPTIONS_TO_RETRY) \                and not request.meta.get('dont_retry', False):            return self._retry(request, exception, spider)    def _retry(self, request, reason, spider):        retries = request.meta.get('cus_retry',0) + 1        if retries<=self.cus_retry:            r = request.copy()            r.meta['cus_retry'] = retries            r.meta['proxy'] = f'https://{ip:port}'            r.dont_filter = True            return r        else:            print("done retrying")我怎樣才能消除 中的錯誤EXCEPTIONS_TO_RETRY?PS:無論我選擇哪個站點,當達到最大重試限制時腳本都會遇到錯誤。
查看完整描述

3 回答

?
縹緲止盈

TA貢獻2041條經驗 獲得超4個贊

嘗試修復刮刀本身的代碼。有時,錯誤的解析函數可能會導致您所描述的那種錯誤。一旦我修復了代碼,它就消失了。



查看完整回答
反對 回復 2023-08-22
?
白衣染霜花

TA貢獻1796條經驗 獲得超10個贊

當達到最大重試次數時,類似的方法parse_error()應該處理蜘蛛中存在的任何錯誤:


def start_requests(self):

    for start_url in self.start_urls:

        yield scrapy.Request(start_url,errback=self.parse_error,callback=self.parse,dont_filter=True)


def parse_error(self, failure):

    # print(repr(failure))

    pass

然而,我想在這里提出一種完全不同的方法。如果您采用以下路線,則根本不需要任何自定義中間件。包括重試邏輯在內的所有內容都已經存在于蜘蛛中。


class mySpider(scrapy.Spider):

    name = "myspider"

    start_urls = [

        "some url",

    ]


    proxies = [] #list of proxies here

    max_retries = 5

    retry_urls = {}


    def parse_error(self, failure):

        proxy = f'https://{ip:port}'

        retry_url = failure.request.url

        if retry_url not in self.retry_urls:

            self.retry_urls[retry_url] = 1

        else:

            self.retry_urls[retry_url] += 1

        

        if self.retry_urls[retry_url] <= self.max_retries:

            yield scrapy.Request(retry_url,callback=self.parse,meta={"proxy":proxy,"download_timeout":10}, errback=self.parse_error,dont_filter=True)

        else:

            print("gave up retrying")


    def start_requests(self):

        for start_url in self.start_urls:

            proxy = f'https://{ip:port}'

            yield scrapy.Request(start_url,callback=self.parse,meta={"proxy":proxy,"download_timeout":10},errback=self.parse_error,dont_filter=True)


    def parse(self,response):

        for item in response.css().getall():

            print(item)

不要忘記添加以下行以從上述建議中獲得上述結果:


custom_settings = {

    'DOWNLOADER_MIDDLEWARES': {

        'scrapy.downloadermiddlewares.retry.RetryMiddleware': None,

    }

}

順便說一句,我正在使用 scrapy 2.3.0。


查看完整回答
反對 回復 2023-08-22
?
慕運維8079593

TA貢獻1876條經驗 獲得超5個贊

也許問題不在您這邊,但第三方網站可能有問題。也許他們的服務器上存在連接錯誤,或者可能是安全的,所以沒有人可以訪問它。

因為該錯誤甚至表明該錯誤與一方有關,該錯誤已關閉或無法正常工作,可能首先檢查第三方站點是否在請求時正常工作。如果可以的話嘗試聯系他們。

因為錯誤不是在你這邊,而是在黨那邊,正如錯誤所說。

查看完整回答
反對 回復 2023-08-22
  • 3 回答
  • 0 關注
  • 1656 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號