我正在開發一個Python Flask網絡應用程序,我正在嘗試將一些用戶上傳的PDF轉換為格式良好的HTML,就像當您在.iframe到目前為止,我嘗試了幾件事:庫,產生凌亂的HTML,pdfminer.six在渲染帶有pdf.js的PDF時,試圖抓取生成的HTML,這顯然隱藏在影子DOM中,無法訪問其內部HTML最后我遇到了(https://github.com/pdf2htmlEX/pdf2htmlEX),它產生了我想要的東西。pdf2htmlEX在本地,此解決方案效果很好,但是在生產狀態(Heroku)中,我無法正確安裝它。該項目已被棄用,文檔有限且可怕。問題與損壞的依賴項有關。那么,如何使用Python或任何其他工具有效地將PDF轉換為HTML而不會丟失任何格式?非常感謝。如果有人愿意幫助我獲得pdf2htmlEX在heroku上工作,請發表評論,我會在另一篇文章中發布更多詳細信息
1 回答

慕神8447489
TA貢獻1780條經驗 獲得超1個贊
這不會是微不足道的。但我會給出一些指點。
您需要在其中定義構建包。
https://devcenter.heroku.com/articles/app-json-schema#buildpacksapp.json
如果這個項目可以通過它獲得,那將很容易。您只需使用 Heroku 的 Apt 構建包定義一個,說明它需要安裝哪些包。示例
然后它會自動安裝它,您就完成了。apt
Aptfile
如果它不能作為軟件包使用,則需要創建自己的構建包。
https://devcenter.heroku.com/articles/buildpack-api 此處使用的示例。
另一種解決方案是將項目進行泊塢化,并將其作為泊站容器執行。
添加回答
舉報
0/150
提交
取消