-
課程編譯環境: python 2.7
簡單爬取網頁步驟:
????????1)分析網頁元素
????? ? 2)使用urllib2打開鏈接
????????3)讀取鏈接文本
????????4)使用re匹配出期望文本內容并分條存入list
????????5)創建文件定義文件名規則,并將list中的鏈接逐條用urllib2打開后寫入
????????
查看全部 -
.????? 匹配除 "\n" 之外的任何單個字符。
要匹配包括 '\n' 在內的任何字符,請使用象 '[.\n]' 的模式。
[...]?? 匹配字符集[a-zA-Z0-9]
\d??? 匹配一個數字字符。等價于 [0-9]。
\D?? 匹配一個非數字字符。等價于 [^0-9]。
\s??? 匹配任何空白字符,包括空格、制表符、換頁符等等。等價于 [ \f\n\r\t\v]。
\S??? 匹配任何非空白字符。等價于 [^ \f\n\r\t\v]。
\w?? 匹配包括下劃線的任何單詞字符。等價于'[A-Za-z0-9_]'。
\W?? 匹配任何非單詞字符。等價于 '[^A-Za-z0-9_]'。
[0-9]?????? 匹配任何數字。類似于 [0123456789]
[a-z]?????? 匹配任何小寫字母
[A-Z]????? 匹配任何大寫字母
[a-zA-Z0-9]? 匹配任何字母及數字
查看全部 -
sum([int(x)?for?x?in?info]) 可做到對list式求和
查看全部 -
re—compile--pattern--match--result
查看全部 -
pppppp
查看全部 -
錢錢錢錢錢錢從
查看全部 -
啊啊啊啊啊啊啊啊啊啊啊
查看全部 -
正則表達式查看全部
-
抓網頁, 抓圖片地址, 抓圖片內容并保存本地
查看全部 -
這個分割的功能挺好。
查看全部 -
這里沒聽懂
查看全部 -
正則表達式:import re
\? ? 轉義字符
.? ?匹配任意一個字符(處理\n)
[...]? 匹配字符集中的任何一個字符
\d/\D? ?匹配數字/非數字
\s/\S? ? 匹配空白/非空白字符
\w/\W? 匹配單詞字符[a-zA-Z0-9]/非單詞字符
*? ?匹配前一個字符0次或者無限次
+? 匹配前一個字符1次或者無限次
? 匹配前一個字符0次或者1次
{m}/{m,n}? 匹配前一個字符m次或者n次
*?/+???? ? ?匹配模式變為非貪婪(盡可能少匹配字符)
^? ? ?匹配字符串開頭
$? ? ?匹配字符串結尾? (在字符串的后邊加$)
\A/\Z? ? ?指定的字符串
1:search(pattern,string,flags=0)? ? 在一個字符串中查找匹配
2:findall(pattern,string,flags=0)? ?找到匹配,返回所有匹配部分的列表
3:sub(pattern,repl,string,count=0,flags=0)? ?將字符串中匹配正則表達式的部分替換為其他值
4:split(pattern,string)? ? ? ?根據匹配分割字符串,返回分割字符串組成的列表
查看全部 -
Urllib:
Python3中將Python2.7的urllib和urllib2兩個包合并成了一個urllib庫,其主要包括以下模塊:
urllib.request? ?請求模塊
? ? ? ? urllib.request.urlopen(url)
? ? ? ? from urllib import request
? ? ? ? request.urlopen()
urlopen返回對象提供方法:
read() , readline() ,readlines() , fileno() , close() :對HTTPResponse類型數據進行操作。
info():返回HTTPMessage對象,表示遠程服務器返回的頭信息。
getcode():返回Http狀態碼。
geturl():返回請求的url。
urllib.error? ? ? 異常處理模塊
urllib.parse? ? ?url解析模塊
urllib.robotparser? ? ? robots.txt解析模塊
查看全部 -
search:在一個字符串中查找匹配
findall:找到匹配,返回所有匹配部分的列表
sub:將匹配出來的部分替換為其他值
split:分割字符串,返回分割后的數組
查看全部 -
| 匹配左右任意一個表達式
(ab)括號中表達式作為一個分組
\<number> 引用編號為num的分組匹配到的字符串
(?P<name>)分組起一個別名
(?P=name)引用別名為name的分組匹配字符串
查看全部
舉報