亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

在 Pandas 中迭代地分配唯一 ID

在 Pandas 中迭代地分配唯一 ID

蕭十郎 2022-10-25 10:14:31
我遇到了遍歷由 200.000 行組成的 Pandas DataFrame 的問題。每行由不同長度的句子組成,我希望將其拆分為特殊字符,如 re.split 方法所示。我想做的是通過為它們分配一個唯一的 ID 來跟蹤哪些句子被分成了多少個子句子。我現在擁有的是:lengths = []reviews = []for sentence in corpus:    subsentence = re.split(r'[.|,|?|!]', str(sentence))    for i in review:        lengths.append(len(review))        reviews.append(i)df = pd.DataFrame({'review':reviews,'length': lengths})結果數據框的圖片我想要的是拆分成多個子句的句子共享一個唯一的 ID,這樣我就可以再次將它們粘合在一起。
查看完整描述

1 回答

?
縹緲止盈

TA貢獻2041條經驗 獲得超4個贊

lengths = []

reviews = []

unique_ids = []

unique_id = 0

for sentence in corpus:

    review = re.split(r'[.|,|?|!]', str(sentence)) #assuming here that subsentences == review

    for i in review:

        lengths.append(len(review))

        reviews.append(i)

        unique_ids.append(unique_id)

    unique_id += 1


df = pd.DataFrame({'review':reviews,'length': lengths, 'unique_ids': unique_ids})


查看完整回答
反對 回復 2022-10-25
  • 1 回答
  • 0 關注
  • 116 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號