首頁猿問無法消除...

無法消除 process_exception 引發的一些錯誤

Python

慕萊塢森 2023-08-22 14:45:28

我試圖不顯示/獲取 scrapy 中拋出的一些process_response錯誤RetryMiddleware。超過最大重試限制時腳本遇到的錯誤。我在中間件中使用了代理。奇怪的是腳本拋出的異常已經在列表中EXCEPTIONS_TO_RETRY。腳本有時可能會超過最大重試次數而沒有成功，這是完全可以的。但是，我只是不希望看到該錯誤，即使它存在，這意味著抑制或繞過它。錯誤是這樣的：Traceback (most recent call last): File "middleware.py", line 43, in process_request defer.returnValue((yield download_func(request=request,spider=spider)))twisted.internet.error.TCPTimedOutError: TCP connection timed out: 10060: A connection attempt failed because the connected party did not properly respond after a period of time, or established connection failed because connected host has failed to respond..這是process_response里面的RetryMiddleware樣子：class RetryMiddleware(object): cus_retry = 3 EXCEPTIONS_TO_RETRY = (defer.TimeoutError, TimeoutError, DNSLookupError, \ ConnectionRefusedError, ConnectionDone, ConnectError, \ ConnectionLost, TCPTimedOutError, TunnelError, ResponseFailed) def process_exception(self, request, exception, spider): if isinstance(exception, self.EXCEPTIONS_TO_RETRY) \ and not request.meta.get('dont_retry', False): return self._retry(request, exception, spider) def _retry(self, request, reason, spider): retries = request.meta.get('cus_retry',0) + 1 if retries<=self.cus_retry: r = request.copy() r.meta['cus_retry'] = retries r.meta['proxy'] = f'https://{ip:port}' r.dont_filter = True return r else: print("done retrying")我怎樣才能消除中的錯誤EXCEPTIONS_TO_RETRY？PS：無論我選擇哪個站點，當達到最大重試限制時腳本都會遇到錯誤。

查看完整描述

3 回答

縹緲止盈

TA貢獻2041條經驗獲得超4個贊

嘗試修復刮刀本身的代碼。有時，錯誤的解析函數可能會導致您所描述的那種錯誤。一旦我修復了代碼，它就消失了。

反對回復 2023-08-22

白衣染霜花

TA貢獻1796條經驗獲得超10個贊

當達到最大重試次數時，類似的方法parse_error()應該處理蜘蛛中存在的任何錯誤：

def start_requests(self):

for start_url in self.start_urls:

yield scrapy.Request(start_url,errback=self.parse_error,callback=self.parse,dont_filter=True)

def parse_error(self, failure):

# print(repr(failure))

pass

然而，我想在這里提出一種完全不同的方法。如果您采用以下路線，則根本不需要任何自定義中間件。包括重試邏輯在內的所有內容都已經存在于蜘蛛中。

class mySpider(scrapy.Spider):

name = "myspider"

start_urls = [

"some url",

]

proxies = [] #list of proxies here

max_retries = 5

retry_urls = {}

def parse_error(self, failure):

proxy = f'https://{ip:port}'

retry_url = failure.request.url

if retry_url not in self.retry_urls:

self.retry_urls[retry_url] = 1

else:

self.retry_urls[retry_url] += 1

if self.retry_urls[retry_url] <= self.max_retries:

yield scrapy.Request(retry_url,callback=self.parse,meta={"proxy":proxy,"download_timeout":10}, errback=self.parse_error,dont_filter=True)

else:

print("gave up retrying")

def start_requests(self):

for start_url in self.start_urls:

proxy = f'https://{ip:port}'

yield scrapy.Request(start_url,callback=self.parse,meta={"proxy":proxy,"download_timeout":10},errback=self.parse_error,dont_filter=True)

def parse(self,response):

for item in response.css().getall():

print(item)

不要忘記添加以下行以從上述建議中獲得上述結果：

custom_settings = {

'DOWNLOADER_MIDDLEWARES': {

'scrapy.downloadermiddlewares.retry.RetryMiddleware': None,

}

順便說一句，我正在使用 scrapy 2.3.0。

反對回復 2023-08-22

慕運維8079593

TA貢獻1876條經驗獲得超5個贊

也許問題不在您這邊，但第三方網站可能有問題。也許他們的服務器上存在連接錯誤，或者可能是安全的，所以沒有人可以訪問它。

因為該錯誤甚至表明該錯誤與一方有關，該錯誤已關閉或無法正常工作，可能首先檢查第三方站點是否在請求時正常工作。如果可以的話嘗試聯系他們。

因為錯誤不是在你這邊，而是在黨那邊，正如錯誤所說。

反對回復 2023-08-22

3 回答
0 關注
1677 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

無法消除 process_exception 引發的一些錯誤

無法消除 process_exception 引發的一些錯誤

3 回答

添加回答