doc-structurer

파싱된 문서 텍스트를 분석하여 문서 유형을 자동 분류하고, 핵심 정보를 구조화된 데이터(JSON)로 변환하는 스킬. doc-parser 결과를 받아 후속 처리하는 파이프라인 스킬.

Safety Notice

This listing is from the official public ClawHub registry. Review SKILL.md and referenced scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "doc-structurer" with this command: npx skills add parkbeomjun-gkgkgk/doc-structurer

doc-structurer: 문서 구조화/DB화 스킬

목적

doc-parser에서 추출한 원시 텍스트와 메타데이터를 분석하여, 문서의 성격을 자동 분류하고 핵심 필드를 구조화된 데이터로 변환한다. 이 결과는 notion-sync 스킬이 Notion DB에 저장할 수 있는 형태로 출력된다.

문서 유형 자동 분류

분류 카테고리

카테고리키워드/패턴예시
공문/관공서수신, 발신, 시행, 문서번호, 관인입찰공고, 사업계획 승인
계약서계약, 갑/을, 조항, 위약금, 계약기간용역계약서, 임대차계약
제안서제안, 사업개요, 추진전략, 기대효과RFP 응답, 기술제안서
보고서보고, 결과, 분석, 현황, 추진실적월간보고서, 감사보고서
회의록회의, 참석자, 안건, 결정사항이사회 회의록
기획서기획, 목적, 일정, 예산, 추진방안사업기획서, 행사기획
견적서/청구서견적, 단가, 수량, 합계, 부가세견적서, 세금계산서
증명서/확인서증명, 확인, 발급, 용도재직증명서, 사업자등록증
기타위 패턴에 해당하지 않음일반 문서

분류 로직

문서 분류는 다음 우선순위로 진행한다:

  1. 파일명 기반 1차 분류: 파일명에 포함된 키워드로 빠르게 추정
  2. 본문 키워드 빈도 분석: 각 카테고리별 키워드 출현 빈도를 계산
  3. 문서 구조 패턴 분석: 테이블 비율, 단락 구조, 서식 패턴으로 보정
  4. LLM 기반 최종 판별: 위 결과가 모호한 경우 LLM에게 문서 앞부분(500자)을 보여주고 분류 요청

신뢰도 점수: 각 분류에 0.0~1.0 사이의 confidence 점수를 부여한다. 0.7 미만이면 사용자에게 확인을 요청한다.

구조화 필드 추출

상세 필드 정의

모든 문서에서 다음 필드를 추출 시도한다:

{
  "doc_id": "자동 생성 UUID",
  "title": "문서 제목",
  "doc_type": "분류된 문서 유형",
  "doc_type_confidence": 0.95,
  "summary": "3줄 이내 핵심 요약",

  "assignee": "담당자/작성자",
  "organization": "발신 기관/회사",
  "recipient": "수신처",

  "dates": {
    "document_date": "문서 작성일",
    "deadline": "마감일/기한",
    "start_date": "시작일",
    "end_date": "종료일",
    "event_dates": ["행사/일정 관련 날짜들"]
  },

  "priority": "상/중/하",
  "status": "신규",
  "tags": ["자동 생성 태그들"],

  "financial": {
    "total_amount": null,
    "currency": "KRW",
    "line_items": []
  },

  "related_docs": ["관련 문서 참조"],
  "attachments": ["첨부파일 목록"],

  "key_items": ["핵심 사항/안건 목록"],
  "action_items": ["필요 조치사항"],

  "raw_metadata": {
    "filename": "원본 파일명",
    "file_type": "hwpx/docx/pdf",
    "page_count": 3,
    "ocr_applied": false
  }
}

문서 유형별 추출 전략

공문/관공서:

  • 문서번호, 수신처, 발신처를 상단에서 추출
  • "시행일자", "기한" 등 날짜 패턴 집중 탐색
  • 첨부 목록은 "붙임" 키워드 이후에서 파싱

계약서:

  • 계약 당사자(갑/을), 계약기간, 계약금액 추출
  • 조항별 핵심 내용 요약
  • 특약사항 별도 태깅

견적서/청구서:

  • 테이블에서 품목, 수량, 단가, 합계 파싱
  • 부가세, 총액 자동 계산 검증
  • 유효기간 추출

회의록:

  • 참석자 목록, 안건, 결정사항, 후속조치 분리 추출
  • 일자/장소 정보

날짜 정규화

문서에서 발견되는 다양한 날짜 형식을 YYYY-MM-DD로 통일한다:

입력 형식정규화
2024년 3월 15일2024-03-15
2024.03.152024-03-15
24/03/152024-03-15
3월 15일 (연도 없음)현재 연도 적용 후 확인 요청

관련 문서 연결

같은 폴더 내 문서들 사이의 관계를 탐지한다:

  • 파일명 유사도: "계약서_v1.docx"와 "계약서_v2.docx"는 관련 문서
  • 본문 참조: 문서 내에서 다른 문서를 언급하는 경우 ("첨부된 견적서 참조")
  • 날짜/프로젝트 연관: 동일 프로젝트명이나 기간이 겹치는 문서

우선순위 자동 판정

조건우선순위
마감일이 3일 이내
마감일이 7일 이내
마감일이 없거나 7일 초과
금액 1억 이상상 (상향)
"긴급", "시급" 키워드 포함상 (상향)

출력

구조화된 결과는 JSON 배열로 출력하며, notion-sync 스킬에 직접 전달 가능한 형태여야 한다. 사용자에게는 처리된 문서 수, 유형별 분포, 주의가 필요한 항목(낮은 분류 신뢰도, 누락 필드 등)을 요약 보고한다.

다음 단계

구조화된 데이터는 notion-sync 스킬을 통해 Notion 데이터베이스에 저장되고, 날짜 정보가 포함된 항목은 calendar-sync 스킬로 Apple 캘린더에 등록된다.

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

General

Img2img

Generate images from text descriptions using DALL-E 3 while adhering to usage policies and avoiding realistic human faces.

Registry SourceRecently Updated
General

Habitat-GS-Navigator

Navigate and interact with photo-realistic 3DGS environments via the Habitat-GS Bridge. Use when: user asks to explore a 3D scene, perform embodied navigatio...

Registry SourceRecently Updated
General

Memory Palace

持久化记忆管理。Use when: 用户告诉你个人信息/偏好/习惯、需要记住项目状态/技术决策、完成任务后有可复用经验、用户说"记住""别忘了""下次注意"、需要回忆之前的对话内容。支持语义搜索和时间推理。

Registry SourceRecently Updated
General

Podcast Transcript Mining Authority Positioning

Extract guest appearances, speaking topics, and soundbites from podcast transcripts to build authority portfolios and generate podcast pitch templates. Use w...

Registry SourceRecently Updated