CCTI Schema

Ⅲ-2. XML 데이터 구조

1) CCTI 표준 XML 스키마

인공지능과의 소통은 평문(Plain Text)으로도 가능하지만, 정확한 지식 생산과 검토·재사용을 위해서는 구조화된 데이터가 필요합니다. CCTI는 고전 한문 텍스트 처리에 적합한 XML 구조를 사용하며, 기본 형식은 다음과 같습니다.

<text_unit id="">
  <hanmun_text punctuation_scheme="raw|standard|korean_style|japanese_style">
    ...
  </hanmun_text>

  <translation lang="KOR|ENG|CHN|JPN" status="source|draft|reviewed|final" version="1">
    ...
  </translation>

  <glossary status="source|draft|reviewed|final" version="1">
    <term type="Person|Place|Event|Timespan|Object|Record|ArtWork|Food|Clothing|Concept|Grammar" id="">
      <lemma>
        <hanmun>...</hanmun>
        <korean>...</korean>

        <!-- 로마자 표기(복수 병렬 가능): RR/MR/Pinyin -->
        <romanization system="RR|MR|Pinyin">...</romanization>
      </lemma>

      <sense scope="this_text_unit|general">
        <definition>...</definition>
        <sense_note>...</sense_note>
      </sense>
    </term>
    ...
  </glossary>
</text_unit>

2) XML 요소 설명

<text_unit>: 한 개 텍스트 유닛(원문·번역·용어사전)을 묶는 최상위 요소. id는 고유 식별자.

<hanmun_text>: 한문 원문 텍스트. punctuation_scheme로 표점 방식 지정.

<translation>: 번역문. lang(언어), status(단계), version(이력)으로 관리.

<glossary>: 용어사전. status와 version으로 AI 생성본/검토본/확정본을 구분.

<term>: 용어사전의 개별 항목. type(개체 유형), id(식별자) 포함.

<lemma>: 용어 표제 정보(한문 표기, 한국어 대응, 로마자 표기).

<romanization>: 로마자 표기. system으로 RR/MR/Pinyin 등 표기 체계 지정(복수 병렬 가능).

<sense>: 의미 설명. scope로 텍스트 한정 의미/일반 의미 구분.

<definition>: 용어 정의

<sense_note>: 용어 의미 정의에 대한 보충 설명.

3) 요소–속성 요약 표

요소(Element)	속성(Attribute)	값 / 타입	설명	비고
text_unit	id	string	텍스트 유닛 고유 식별자	DB 기본 키와 1:1 대응
hanmun_text	punctuation_scheme	raw \| standard \| korean_style \| japanese_style	표점 방식 지정	번역 생성 기준 설정
translation	lang	KOR \| ENG \| CHN \| JPN	번역 언어	다국어 확장 가능
	status	source \| draft \| reviewed \| final	번역 단계	AI 생성본/검토본/확정본 구분
	version	number	번역 버전	증분 관리 권장
glossary	status	source \| draft \| reviewed \| final	용어사전 단계	AI 제안 → 인간 판단 구조 명시
glossary	version	number	용어사전 버전	번역과 독립적 관리
term	type	Person \| Place \| Event \| Timespan \| Object \| Record \| ArtWork \| Food \| Clothing \| Concept \| Grammar	용어 유형	개체/개념/문법 구분
term	id	string	용어 식별자	재사용·링크 확장 가능
romanization	system	RR \| MR \| Pinyin	로마자 표기 체계	동일 lemma에 복수 병렬 기록 가능
sense	scope	this_text_unit \| general	의미 범위	텍스트 특수 의미 구분

4) AI 처리 단계별 사용 요소

단계	작업(목적)	입력 요소(참조)	출력 요소(생성/갱신)	주체	비고
0	텍스트 유닛 생성 및 원문 입력	(없음) 또는 기존 text_unit	text_unit[@id] hanmun_text[@punctuation_scheme="raw"]	학습자	원문은 모든 AI 처리의 기준 입력
1	표준 표점 생성	hanmun_text[@punctuation_scheme="raw"] (선택) glossary_reviewed, remark	hanmun_text[@punctuation_scheme="standard"] 또는 별도 저장 시 hanmun_punctuated	AI → 학습자 검토	이후 번역 생성의 기준 텍스트
2	용어사전 초안 생성	hanmun_text[@punctuation_scheme="standard"] (선택) hanmun_text[@punctuation_scheme="raw"]	glossary[@status="draft"] 내부: term, lemma, sense, definition, sense_note, romanization[@system]	AI	인명·지명·관직·개념·문법 등 유형화
3	용어사전 검토/수정 및 확정	glossary[@status="draft"]	glossary[@status="reviewed"] 또는 final	학습자	AI 제안 → 인간 판단 단계의 핵심
4	번역 초안 생성	hanmun_text[@punctuation_scheme="standard"] glossary[@status="reviewed"] (선택) remark, category	translation[@status="draft"]	AI	표점본 + 검토된 용어사전 반영
5	번역 검토/수정 및 확정	translation[@status="draft"]	translation[@status="reviewed"] 또는 final	학습자	CCTI 학습 과정의 최종 산출물
6	공유 정보 및 메타데이터 갱신	(선택) translation[@status="final"], glossary[@status="final"]	infoUrl, iconUrl, remark, curator	학습자/관리자	Wiki 공유 페이지·대표 이미지·설명 문구 연결