已解決430363個問題，去搜搜看，總會有你想問的

改進代碼 - 網絡抓取工作機會 - 職位、雇主、薪水、需要鏈接

首頁猿問改進代碼 - 網絡抓取工作機會 -...

改進代碼 - 網絡抓取工作機會 - 職位、雇主、薪水、需要鏈接

Python

繁星淼淼 2023-06-13 10:39:08

我寫了一個網絡抓取代碼，掃描工作門戶中的所有頁面，并在功能中報告滿足薪水要求的工作機會。對我來說重要的字段是職位、雇主、薪水和鏈接。我現在使用的是 getText() 方法，但需要所有元素。結果看起來像：Zubny lekár/lekárka DENTAL CARE Dr. Rosa, s. r. o.Námestie sv. Franti?ka, Karlova Ves Od 4 500 EUR/mesiac Pridané Pred 4 dňami Prida? k vybranym https://www.profesia.sk/praca/dental-care-dr-rosa/O3863429https://www.profesia.sk/praca/dental-care-dr-rosa/O3863429Head of Core Technology DevelopmentESET, spol. s r.o.Bratislava 4 500 EUR/mesiac Pridané pred 2 ty?dňami Prida? k vybranym https://www.profesia.sk/praca/eset/C22141https://www.profesia.sk/praca/eset/O3933805https://www.profesia.sk/praca/eset/O3933805它需要兩個不必要的項目并復制鏈接（因為 <a 'href' 中有 2 到 3 個鏈接）有更好的主意嗎？def search4job(salary): import bs4, requests, re #Classes -> employer: class='employer'> # -> salary ".label" # -> Job Title class='title' # -> TODO: link base_url= 'https://www.profesia.sk/praca/bratislava/plny-uvazok/?languages=73&page_num={}' page = 1 #to start from page1 request = requests.get(base_url.format(page)) #to take complete url HTML = bs4.BeautifulSoup(request.text,'lxml') pattern = r'(\d\s\d\d\d)' #salary pattern while len(HTML.select(".list-row"))>0: #in pages without job offer the len of list-row is 0, iterates until there are no job offers

查看完整描述

目前暫無任何回答

0 回答
0 關注
153 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

改進代碼 - 網絡抓取工作機會 - 職位、雇主、薪水、需要鏈接

改進代碼 - 網絡抓取工作機會 - 職位、雇主、薪水、需要鏈接

添加回答

改進代碼 - 網絡抓取工作機會 - 職位、雇主、薪水、需要鏈接

改進代碼 - 網絡抓取工作機會 - 職位、雇主、薪水、需要鏈接