Pandoc を使って抽出できなかったWord内部の画像をGoogle Driveを使って抽出する

先日の記事 では、pandoc の--extract-media オプションをオンにしても word 内部の画像を抽出することができなかった。 だが、Google Drive を使うことで Word 内部の画像を抽出することができたのでここに記しておく。 対象の Word ファイルを Google Drive にアップロードする そのファイルを Google Docs で開く File → Download → Web Page (.html, zippted) でウェブページとして zip ファイルをダウンロードする zip ファイルを解凍後、その中にあるimages フォルダに Word 内部の画像が格納されている

September 27, 2021 Â· Shunya Ueta

Pandoc で特定のディレクトリ直下にある複数のWordをMarkdown形式に一括変換する

表題の通り、Pandoc を使って、特定ディレクトリ配下にある複数の Wordファイル(*.docx) を Markdownファイル(*.md) へ一括変換したい。 単一Wordファイルの変換コマンド 単一の変換である場合は、@tomo-makes さんのWordファイル(.docx)をMarkdownへ変換する を参考に実行すると良いと思います。 自分は特に困らなかったので、despan の処理は省いた形にしました。 また、--extract-media をオンにして指定しても Wordファイル内の画像を上手く抜き出せなかったです。 WordファイルからMarkdownファイルへの完全変換って難しい。まさに餅をもち米に戻す行為に近い… 1 pandoc -s {input}.docx --wrap=none -t gfm -o {output}.md 複数Wordファイルの変換コマンド ワンライナーのシェルスクリプトを組んで実行する。 実行時には、変換元のWordファイルが配置されているディレクトリで実行する。 1 for f in *.docx; do pandoc -s "$f" --wrap=none -t gfm -o "${f}.md"; done "${f}.md" の部分を "../../docs/${f}.md" のような形で修正してやれば、所定のディレクトリへ変換されたMarkdownファイルが生成される。 Reference How can I convert a whole directory of files from Markdown to RTF?

September 19, 2021 Â· Shunya Ueta