DOCX Reader
Microsoft Word (.docx) ファイルをテキスト形式で読み込むスキルです。
クイックスタート
基本的な使い方
WSL環境でPythonスクリプトを実行
wsl python3 scripts/read_docx.py "/mnt/c/path/to/file.docx"
Markdown形式で保存
-
スクリプトでテキスト抽出
-
Write ツールで .md ファイルに保存
前提条件
python-docx パッケージが必要です:
wsl pip3 install python-docx
使用例
例1: .docx ファイルを読み込んで内容を表示
User: "C:\Users\keita\repos\file.docx を読み込んで" Assistant:
- Windowsパスを WSL パスに変換: /mnt/c/Users/keita/repos/file.docx
- wsl python3 scripts/read_docx.py を実行
- 抽出されたテキストを表示
例2: .docx を Markdown に変換して保存
User: "申請書.docx を Markdown に変換して保存" Assistant:
- scripts/read_docx.py でテキスト抽出
- Markdown形式で整形
- Write ツールで 申請書.md に保存
- 保存完了を報告
ワークフロー
単一ファイルの読み込み
-
ユーザーが .docx ファイルパスを指定
-
Windows パスを WSL パス形式に変換 (C:
→ /mnt/c/ ) -
wsl python3 scripts/read_docx.py を実行
-
抽出されたテキストを表示または保存
複数ファイルの一括処理
-
Glob で .docx ファイルを検索
-
各ファイルに対してスクリプトを実行
-
結果をまとめて報告
スクリプト詳細
Python スクリプトは scripts/read_docx.py に配置されています。
主な機能:
-
段落テキストの抽出
-
テーブルデータの抽出
-
エラーハンドリング
使い方:
python scripts/read_docx.py <file_path>
制限事項
-
画像は抽出されません
-
複雑なレイアウトは簡略化されます
-
フォント情報、色などのスタイルは失われます
-
埋め込みオブジェクトは抽出されません
トラブルシューティング
python-docx がインストールされていない
wsl pip3 install python-docx
"No module named 'docx'" エラー
wsl pip3 uninstall docx wsl pip3 install python-docx
ファイルが開けない
-
ファイルパスが正しいか確認(Windows → WSL パス変換)
-
ファイルが他のプログラムで開かれていないか確認
-
ファイルのアクセス権限を確認
パス変換
Windows パスから WSL パスへの変換:
-
C:\Users... → /mnt/c/Users/...
-
D:\Projects... → /mnt/d/Projects/...
-
バックスラッシュ
をスラッシュ / に変換
関連ツール
-
pandoc: より高度な変換が必要な場合
-
python-docx2txt: 軽量な代替ライブラリ
-
mammoth: HTML形式での変換
バージョン履歴
-
v1.0.0 (2026-01-06): 初期リリース
-
基本的なテキスト抽出機能
-
テーブル抽出対応
-
WSL環境での動作