将 Powerpoint pptx 文件转换为 markdown 的工具。
Github:GitHub - ssine/pptx2md:pptx 到 markdown 的转换器
主要功能
支持保留以下格式:
- 标题。支持具有模糊匹配的自定义目录。
- 具有任意深度的列表。
- 带有粗体、斜体、颜色和超链接的文本
- 图片。它们被提取到图像文件中,并插入相对路径。
- 具有合并单元格的表格。
- 从上到下,然后从左到右的区块顺序。
支持输出为如下格式:
- Markdown
- Tiddlywiki’s wikitext
- Madoko
- Quarto
安装和使用
安装
您需要在系统上安装 3.10 版本高于 Python 和 pip,然后在终端中运行:
pip install pptx2md
用法
安装后,使用命令将 pptx 文件转换为 markdown。pptx2md [pptx filename]
默认输出文件名为 ,提取(并插入到 .md 中)的任何图片都将放置在文件夹中。out.md/img/
**注意:**不支持较旧的 .ppt 文件,请先将它们转换为新的 .pptx 版本。
升级和移除:
pip install --upgrade pptx2md
pip uninstall pptx2md
自定义标题
默认情况下,此工具将所有 pptx 标题解析为 markdown 标题,以获得分层目录,在文件中提供预定义的标题列表并为其提供参数。level 1-t
这是一个示例标题文件 (titles.txt):
Heading 1
Heading 1.1
Heading 1.1.1
Heading 1.2
Heading 1.3
Heading 2
Heading 2.1
Heading 2.2
Heading 2.1.1
Heading 2.1.2
Heading 2.3
Heading 3
开头带有空格的第一行被视为第二级标题,空格数是缩进的单位。在这种情况下, 将输出为 .由于它的开头有两个空格,所以 2 是标题缩进的单位,所以有 4 个空格时将输出为 。标题文本进行模糊匹配,不匹配的 pptx 标题将被视为最深的标题。 Heading 1.1## Heading 1.1 Heading 1.1.1### Heading 1.1.1
将其与 . 一起使用。pptx2md [filename] -t titles.txt
完整参数
-t [filename]
提供标题文件-o [filename]
输出文件的路径-i [path]
提取的图片目录--image-width [width]
图片的最大宽度,以 px 为单位。如果设置,图像将作为 html img 标签放置。--disable-image
禁用图像提取--disable-escaping
不要尝试转义特殊字符--disable-notes
不添加 Presenter 注释--disable-wmf
保持 WMF 格式的映像不变(避免在 Linux 下出现异常)--disable-color
在 HTML 中禁用颜色标签--enable-slides
Deliniate Slides ,如果您想将 PPTX 幻灯片转换为 Markdown 幻灯片,这会有所帮助\n---\n
--try-multi-column
尝试检测多柱玻片(非常慢)--min-block-size [size]
要输出的文本块的最小字符数--wiki
/--mdk
如果你碰巧在使用 TiddlyWiki 或 Madoko,这个参数会输出相应的标记语言--qmd
输出到用于 Quarto 支持的演示文稿的 QMD 标记语言--page [number]
仅转换指定的页面--keep-similar-titles
保留相似的标题,并在重复的幻灯片标题中添加“(续)”
注意:如果需要,请安装 wand 以获得更好的成功转换 wmf 图像的机会。
API 使用
您还可以在 Python 代码中以编程方式使用 pptx2md:
from pptx2md import convert, ConversionConfig
from pathlib import Path
# Basic usage
convert(
ConversionConfig(
pptx_path=Path('presentation.pptx'),
output_path=Path('output.md'),
image_dir=Path('img'),
disable_notes=True
)
)
该类接受与命令行参数相同的参数:ConversionConfig
pptx_path
:输入 PPTX 文件的路径(必填)output_path
:输出 markdown 文件的路径(必填)image_dir
:提取图像的目录(必需)title_path
: 自定义标题文件的路径image_width
:图像的最大宽度(以 px 为单位)disable_image
:跳过图像提取disable_escaping
:跳过转义特殊字符disable_notes
:跳过演示者注释disable_wmf
:跳过 WMF 图像转换disable_color
:跳过 HTML 中的颜色标签enable_slides
:添加幻灯片分隔符try_multi_column
:尝试检测多列幻灯片min_block_size
:最小文本块大小wiki
:以 TiddlyWiki 格式输出mdk
:以 Madoko 格式输出qmd
:以四开格式输出page
:仅转换指定的页码keep_similar_titles
: 保留带有“(续)”后缀的相似标题