Diingen

Docx omzetten naar Markdown

Een korte zoektocht op Google liet zien dat de ‘command line tool’ pandoc dat kan.

Volgens StackOverflow:

pandoc -f docx -t markdown foo.docx -o foo.markdown

Zelfs afbeeldingen kunnen door deze tool uit het Word-document gehaald worden:

To save the images, add the option —extract-media=./ to the command above. It will create a folder media with all the images and they will be correctly shown in the markdown file.

Aan de slag

Om te kijken of dit inderdaad werkt, heb ik een testje gedraaid. Eerst eens kijken of pandoc al op mijn Mac staat. Dat blijkt het geval:

$ which pandoc
/opt/homebrew/bin/pandoc

En dan de stappen:

  1. Map gemaakt DiingenContent om in te testen
  2. Word geopend
  3. Document maken en opslaan onder de naam docx-omzetten-naar-markdown.docx
  4. In DiingenContent een mapje docx en een mapje md maken. Het Word-document in de juiste map zetten.
  5. .gitignore maken in het Docx mapje: Versiebeheer heeft hier geen zin. In dit bestand:
.DS_Store
._*
  1. build.sh met scriptje voor pandoc: pandoc -f docx -t markdown docx/docx-naar-markdown.docx -o md/docx-naar-markdown.md

Voor het gemak – mocht je dit zelf willen proberen – heb ik dit ZIP’je gemaakt.

Verder lezen, schrijven of denken

  • De input en output van de command line kan beter worden geformatteerd. Daar ga ik nog eens mee aan de slag.
  • Staat pandoc niet op je mac? Gebruik Homebrew om het te installeren.
  • Docx is niet leesbaar in een ‘platte tekstverwerker’ zoals Visual Studio Code. Automatisch ontzippen zou kunnen.