首頁猿問 Python -...

Python - 如何從腳本中的變量內部提取數據？

Python

qq_遁去的一_1 2021-09-11 19:20:46

我是 Python 新手，我正在嘗試使用 BeautifulSoup 從腳本中定義的變量中提取一些數據。data = soup.find_all('script', type='text/javascript')print(data[0])<script type="text/javascript"> var myvar = { productid: "101", productname: "Abc", };</script>您知道從 myvar 變量中提取“productid”和“productname”的簡單方法嗎？

查看完整描述

3 回答

蠱毒傳說

TA貢獻1895條經驗獲得超3個贊

有兩種方法。容易，而且是錯誤的。或者不那么容易，但正確。

我不會向你推薦簡單的方法。正確的方法是使用 Javascript 解析器。對于現代 Javascript，esprima是一個不錯的選擇。有一個交互式在線演示，它也可以作為Python 模塊使用。

import esprima

# script body as extracted from beautifulsoup

script_text = """

var myvar = {

productid: "101",

productname: "Abc",

};

""";

tokens = esprima.tokenize(script_text)

在這個簡單的腳本中，沒有太多內容。原始令牌列表足以獲得您想要的值。它看起來像這樣：

[

{

"type": "Keyword",

"value": "var"

{

"type": "Identifier",

"value": "myvar"

{

"type": "Punctuator",

"value": "="

{

"type": "Punctuator",

"value": "{"

{

"type": "Identifier",

"value": "productid"

{

"type": "Punctuator",

"value": ":"

{

"type": "String",

"value": "\"101\""

{

"type": "Punctuator",

"value": ","

{

"type": "Identifier",

"value": "productname"

{

"type": "Punctuator",

"value": ":"

{

"type": "String",

"value": "\"Abc\""

{

"type": "Punctuator",

"value": ","

{

"type": "Punctuator",

"value": "}"

{

"type": "Punctuator",

"value": ";"

}

]

迭代列表并選擇您需要的值。

token_iterator = iter(tokens)

for token in token_iterator:

if token["type"] == "Identifier" and token["value"] == "productname":

# the token after the next must be the one that holds the associated value

value_token = next(next(token_iterator))

productname = value_token["value"]

對于更復雜的情況，可能需要將腳本解析為樹并遍歷樹。

tree = esprima.parse(script_text)

該樹更復雜（您可以在交互式頁面上查看它），但作為交換，它攜帶了普通標記列表中缺少的所有上下文信息。然后，您將使用訪問者模式將這棵樹步行到特定位置。如果您有興趣，Python 包中有一個如何使用訪問者模式的示例。

反對回復 2021-09-11

慕田峪7331174

TA貢獻1828條經驗獲得超13個贊

解析

from bs4 import BeautifulSoup

script_data='''

var myvar = {

productid: "101",

productname: "Abc",

};

</script>

'''

soup = BeautifulSoup(script_data)

soup.script.string將script標簽內的數據保存為字符串。您可以使用split字符串來獲取位置數據：

soup.script.string.split()

Output:

['var',

'myvar',

'=',

'{',

'productid:',

'"101",',

'productname:',

'"Abc",',

'};']

產品編號：

soup.script.string.split()[5].split('"')[1]

Output:

'101'

產品名稱：

soup.script.string.split()[7].split('"')[1]

Output:

'Abc'

反對回復 2021-09-11

慕斯王

TA貢獻1864條經驗獲得超2個贊

對于簡單的方法，我將使用 Regex

import re

.....

data = soup.find_all('script', type='text/javascript')

productid = re.search(r'productid:\s*"(.*?)"', data[0].text).group(1)

print(productid)

反對回復 2021-09-11

3 回答
0 關注
363 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

Python - 如何從腳本中的變量內部提取數據？

Python - 如何從腳本中的變量內部提取數據？

3 回答

添加回答

Python - 如何從腳本中的變量內部提取數據？

Python - 如何從腳本中的變量內部提取數據？