我有以下代碼inf = codecs.open(inPath , encoding='utf-8')outf = codecs.open(outPath, encoding='utf-8', mode='w')old = u'’;'new = u'’;'for line in inf: line = line.replace(old,new) asc = line.encode('ascii', 'xmlcharrefreplace') outf.write(asc) # print ascinf.close()outf.close()這(正確)使用數字格式將智能引號和帶重音符號等轉換為它們的html實體格式。它將轉換<p>Dreams like: “Someday I’ll travel to…; someday I’ll write a book;進入<p>Dreams like: “Someday I’ll travel to…; someday I’ll write a book; 這都是正確的。但是,…;在更下游的代碼中,看到了中間的代碼,刪除了雙分號,然后抱怨它沒有有效的實體。我無法更改此代碼。如您從我的代碼中看到的那樣,我發現了一種情況,其中一個實體后跟一個分號。我不想替換源代碼中的所有分號。如何檢測代碼點> 127的UTF-8字符后的半冒號,以便將其替換為;?謝謝。
添加回答
舉報
0/150
提交
取消