我已經使用string_grouperPython 中的包生成了兩個公司信息數據庫之間的通用名稱列表。生成的數據框顯示來自 DB1 ( ) 和 DB2 ( )matches的公司名稱高于某個字符串相似度閾值:left_sideright_side現在,我想減少 DB1 以僅包含公司名稱存在于matches['left_side']. (因為 DB1 中的信息如果沒有 DB2 中關于該公司的信息的補充就沒有用。所以我只想要兩者中的公司)我該怎么做呢?這些名稱存在于 DB1 的“名稱”列中,但例如rslt_df = DB1[DB1['names'] in matches['left_side']]給我一個錯誤 ( 'Series' objects are mutable, thus they cannot be hashed)。DB1 非常大(matches最終有大約 10,000-20,000 行,DB1 有 2000000+ 行)所以請在速度方面牢記這一點!
1 回答

jeck貓
TA貢獻1909條經驗 獲得超7個贊
發生錯誤是因為DB1['names']
是系列,而in
運算符期望左側有單個元素。
嘗試使用pandas.Series.isin() 函數:
rslt_df?=?DB1[DB1['names'].isin(matches['left_side'])]
添加回答
舉報
0/150
提交
取消