首頁猿問如何處理使用 pandas 應用...

如何處理使用 pandas 應用 isbnlib.meta 返回的錯誤

Python

浮云間 2023-12-08 16:46:11

isbnlib.meta當您輸入 isbn 時，我正在使用它來提取元數據（書名、作者、出版商年份等）。我有一個包含 482,000 isbns 的數據框（列標題：isbn13）。當我運行該函數時，我會收到一個錯誤，NotValidISBNError該錯誤會停止其軌道中的代碼。我想要發生的是，如果出現錯誤，代碼將簡單地跳過該行并移至下一行?，F在這是我的代碼：list_df[0]['publisher_isbnlib'] = list_df[0]['isbn13'].apply(lambda x: isbnlib.meta(x).get('Publisher', None))list_df[0]['yearpublished_isbnlib'] = list_df[0]['isbn13'].apply(lambda x: isbnlib.meta(x).get('Year', None))#list_df[0]['language_isbnlib'] = list_df[0]['isbn13'].apply(lambda x: isbnlib.meta(x).get('Language', None))list_df[0]list_df[0]是我嘗試對數據幀進行分塊后的前 20,000 行。我剛剛手動輸入此代碼 24 次來處理每個塊。我嘗試嘗試：和例外：但最終發生的只是代碼停止，并且我沒有報告任何元數據。追溯：---------------------------------------------------------------------------NotValidISBNError Traceback (most recent call last)<ipython-input-39-a06c45d36355> in <module>----> 1 df['meta'] = df.isbn.apply(isbnlib.meta)e:\Anaconda3\lib\site-packages\pandas\core\series.py in apply(self, func, convert_dtype, args, **kwds) 4198 else: 4199 values = self.astype(object)._values-> 4200 mapped = lib.map_infer(values, f, convert=convert_dtype) 4201 4202 if len(mapped) and isinstance(mapped[0], Series):pandas\_libs\lib.pyx in pandas._libs.lib.map_infer()e:\Anaconda3\lib\site-packages\isbnlib\_ext.py in meta(isbn, service) 23 def meta(isbn, service='default'): 24 """Get metadata from Google Books ('goob'), Open Library ('openl'), ..."""---> 25 return query(isbn, service) if isbn else {} 26 27 e:\Anaconda3\lib\site-packages\isbnlib\dev\_decorators.py in memoized_func(*args, **kwargs) 22 return cch[key] 23 else:---> 24 value = func(*args, **kwargs) 25 if value: 26 cch[key] = value

查看完整描述

2 回答

弒天下

TA貢獻1818條經驗獲得超8個贊

當前提取 isbn 元數據的實現速度極其緩慢且效率低下。

如前所述，有 482,000 個唯一的 isbn 值，其數據被多次下載（例如，每列一次，因為當前編寫的代碼）

最好一次性下載所有元數據，然后從中提取數據dict，作為單獨的操作。
塊try-except用于捕獲無效 isbn 值的錯誤。

返回一個空的dict, ，因為不能與或一起使用。{}pd.json_normalizeNaNNone
沒有必要對 isbn 列進行分塊。

pd.json_normalize用于擴展dictfrom 返回的值.meta。
用于pandas.DataFrame.rename重命名列和pandas.DataFrame.drop刪除列。
此實現將比當前實現快得多，并且對用于獲取元數據的 API 發出的請求要少得多。
要從中提取值lists（例如'Authors'列），請使用df_meta = df_meta.explode('Authors'); 如果有多個作者，將為列表中的每一位附加作者創建一個新行。

import pandas as pd # version 1.1.3

import isbnlib # version 3.10.3

# sample dataframe

df = pd.DataFrame({'isbn': ['9780446310789', 'abc', '9781491962299', '9781449355722']})

# function with try-except, for invalid isbn values

def get_meta(col: pd.Series) -> dict:

try:

return isbnlib.meta(col)

except isbnlib.NotValidISBNError:

return {}

# get the meta data for each isbn or an empty dict

df['meta'] = df.isbn.apply(get_meta)

# df

isbn meta

0 9780446310789 {'ISBN-13': '9780446310789', 'Title': 'To Kill A Mockingbird', 'Authors': ['Harper Lee'], 'Publisher': 'Grand Central Publishing', 'Year': '1988', 'Language': 'en'}

1 abc {}

2 9781491962299 {'ISBN-13': '9781491962299', 'Title': 'Hands-On Machine Learning With Scikit-Learn And TensorFlow - Techniques And Tools To Build Learning Machines', 'Authors': ['Aurélien Géron'], 'Publisher': "O'Reilly Media", 'Year': '2017', 'Language': 'en'}

3 9781449355722 {'ISBN-13': '9781449355722', 'Title': 'Learning Python', 'Authors': ['Mark Lutz'], 'Publisher': '', 'Year': '2013', 'Language': 'en'}

# extract all the dicts in the meta column

df = df.join(pd.json_normalize(df.meta)).drop(columns=['meta'])

# extract values from the lists in the Authors column

df = df.explode('Authors')

# df

isbn ISBN-13 Title Authors Publisher Year Language

0 9780446310789 9780446310789 To Kill A Mockingbird Harper Lee Grand Central Publishing 1988 en

1 abc NaN NaN NaN NaN NaN NaN

2 9781491962299 9781491962299 Hands-On Machine Learning With Scikit-Learn And TensorFlow - Techniques And Tools To Build Learning Machines Aurélien Géron OReilly Media 2017 en

3 9781449355722 9781449355722

反對回復 2023-12-08

holdtom

TA貢獻1805條經驗獲得超10個贊

如果沒有看到代碼，很難回答，但是try/ except應該確實能夠處理這個問題。

我不是這里的專家，但看看這段代碼：

l = [0, 1, "a", 2, 3]

for item in l:

try:

print(item + 1)

except TypeError as e:

print(item, "is not integer")

如果你嘗試用字符串進行加法，Python 會討厭它并用TypeError. 因此，您捕獲了TypeErrorexcept 的使用，并可能報告有關它的一些內容。當我運行這段代碼時：

a is not integer # exception handled!

您應該能夠使用處理異常except NotValidISBNError，然后報告您喜歡的任何元數據。

您可以通過異常處理變得更加復雜，但這是基本思想。

反對回復 2023-12-08

2 回答
0 關注
231 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

如何處理使用 pandas 應用 isbnlib.meta 返回的錯誤

如何處理使用 pandas 應用 isbnlib.meta 返回的錯誤

2 回答

添加回答