書籍の OCR に LLM を組み合わせることで、単なる文字認識精度を上げるだけでなく、文書構造(章・節・段落)や図表の構造も保持する処理パイプラインを構築した記録。OCR 結果を LLM で後処理することで誤読を修正しつつ、見出し階層・図キャプション・表構造を Markdown / JSON で表現できる。古書のデジタル化や RAG 用ソース整備に有用。

ポイント

  • 書籍 OCR に LLM を組み合わせて精度・構造保持を両立
  • 見出し階層・図キャプション・表構造を Markdown/JSON で表現
  • 古書のデジタル化や RAG 用ソース整備に有用

ソース

Zenn (llm)