色综合图-色综合图片-色综合图片二区150p-色综合图区-玖玖国产精品视频-玖玖香蕉视频

您的位置:首頁技術文章
文章詳情頁

Python實現Word文檔轉換Markdown的示例

瀏覽:3日期:2022-07-01 15:04:36

隨著SaaS服務的流行,越來越多的人選擇在各個平臺上編寫文檔,制作表格并進行分享。

同時,隨著Markdown語法的破圈,很多平臺開始集成支持這種簡潔的書寫標記語言,這樣可以保證平臺上用戶文檔樣式的統一性。

但是在一些場景下,我們還是會在本地的Office軟件上寫有很多文檔,或者歷史遺留了很多本地文檔。

如果我們需要將其上傳到各大平臺,直接復制粘貼,大概率是會造成文檔內容結構和樣式的丟失。于此我們需要將其轉換為 Markdown 語法。

很多桌面軟件(比如Typora)都提供了導入 Word 文件的功能,這類功能一般是通過 Pandoc 這個軟件來擴展實現的。

Pandoc 是一個全能型的文檔格式轉換工具,其能夠將多種文檔格式轉換為各類常見的文檔格式。具體的文檔格式之間的轉換如下圖所示(來源于官網):

Python實現Word文檔轉換Markdown的示例

Pandoc 是瑞士軍刀一般的存在,能夠較好的處理各類的文檔格式轉換,但是如果我們需要自己寫程序,調用 Pandoc 則需要額外的安裝 Pandoc 才行,并且也不方便自定義。

幸而,在 Python 中有很多第三方模塊提供了此類文檔格式的轉換功能。今天,我們來實現一下比較頻繁使用到的 Word 文檔轉 Markdown 文檔。

轉換邏輯

Word 文檔到 Markdown 文檔的轉換總體而言分兩步來實現:

第一步,將 Word 文檔轉換為 HTML 文檔; 第二步,將 HTML 文檔轉換為 Markdown 文檔; 依賴模塊

要實現這個功能我們需要借助 Python 的兩個第三方模塊:

mammoth markdownify

mammoth 是一個用于將 Word 文檔轉換為 HTML 的模塊,它支持在 Python、JavaScript、Java、.Net等平臺使用。而 markdownify 則是將 HTML 轉換為 Markdown 文檔的模塊。

處理 Word 圖片

因為 Word 文檔中不可避免地會存在很多圖片,為了在轉換后的文檔中能夠正確地顯示圖片,我們需要自定義一下Word 文檔內圖片的處理方式。默認情況下,mammoth 會將圖片轉換為 base64 編碼的字符串,這樣不用生成額外的本地圖片文件,但是會使文檔體積變得很大。所以我們選擇將圖片另存為本地圖片:

# 轉存Word文檔內的圖片def convert_img(image): with image.open() as image_bytes: file_suffix = image.content_type.split('/')[1] path_file = './img/{}.{}'.format(str(time.time()),file_suffix) with open(path_file, ’wb’) as f: f.write(image_bytes.read()) return {'src':path_file}正式轉換

在這里,我們以州的先生很久以前寫的《Python爬蟲實戰與機器學習應用》(需要這本書的小伙伴可以微信私聊我)這本書的 Word 文檔來演示。

Python實現Word文檔轉換Markdown的示例

代碼如下所示:

# 讀取Word文件with open(r'F:自媒體Python爬蟲實戰與機器學習應用.docx' ,'rb') as docx_file: # 轉化Word文檔為HTML result = mammoth.convert_to_html(docx_file,convert_image=mammoth.images.img_element(convert_img)) # 獲取HTML內容 html = result.value # 轉化HTML為Markdown md = markdownify(html,heading_style='ATX') print(md) with open('./docx_to_html.html',’w’,encoding=’utf-8’) as html_file,open('./docx_to_md.md','w',encoding=’utf-8’) as md_file: html_file.write(html) md_file.write(md) messages = result.messages

運行程序,最終生成2個文件:

docx_to_html.html docx_to_md.md

其中,docx_to_html.html 是 Word 文檔轉換為 HTML 后的文檔:

Python實現Word文檔轉換Markdown的示例

docx_to_md.md 是 HTML 轉換為 Markdown 后的文檔:

Python實現Word文檔轉換Markdown的示例

最后是另存為的圖片:

Python實現Word文檔轉換Markdown的示例

怎么樣,簡單的二三十行代碼就完成了 Word 到 Markdown 文檔的轉換,是不是很簡單?

此功能將集成到覓道文檔作為文檔導入的功能實現,歡迎持續進行關注!

文章版權所有:州的先生博客

原文地址:https://zmister.com/archives/1601.html

以上就是Python實現Word文檔轉換Markdown的示例的詳細內容,更多關于python Word文檔轉換Markdown的資料請關注好吧啦網其它相關文章!

標簽: python
相關文章:
主站蜘蛛池模板: 成人性生免费视频 | 欧美一区二区三区日韩免费播 | 国产精品黄网站免费进入 | 国产三级精品三级 | 亚洲欧美另类视频 | 国产一区二区三区亚洲综合 | 久久久久国产精品 | 成人影院在线免费观看 | 成年片免费网址网站 | 亚洲精品成人a | 精品国产亚一区二区三区 | 5x性区m免费毛片视频看看 | 免费看国产精品久久久久 | 操出白浆视频 | 亚洲国产毛片aaaaa无费看 | 国产欧美一区二区三区免费看 | 国产日韩不卡免费精品视频 | 久久网免费视频 | 一级片免费网址 | 国产亚洲欧美日韩在线观看不卡 | 成年男人午夜片免费观看 | aaa在线| 免费一级毛片在级播放 | 久草在线网址 | 99久久综合狠狠综合久久一区 | 国内精自线一二区 | 欧美成人久久一级c片免费 欧美成人看片黄a免费 | 男女乱配视频免费观看 | 亚洲第99页 | 很黄的网站在线观看 | 欧美91精品久久久久网免费 | 综合558欧美成人永久网站 | 亚洲一级毛片免观看 | 久久综合中文字幕一区二区 | 中文字幕成人免费高清在线视频 | 男女晚上爱爱的视频在线观看 | 国产香蕉久久 | 性欧美成人依依影院 | 国产成人高清精品免费软件 | 久9久9精品视频在线观看 | 亚洲香蕉一区二区三区在线观看 |