CCTI Schema 편집하기

==Ⅲ. 데이터 형식==

CCTI는 고전 한문 텍스트 해석을 진행하는 과정에서 입력/생성/편집되는 데이터를 모두 데이터베이스에 저장합니다.  (※ DBMS: Microsoft SQL Server)

이러한 데이터를 데이터베이스에 저장할 때 적용하는 데이터 형식의 ''''구조(Schema, 스키마)'''를 '''데이터 형식'''이라고 합니다.\

CCTI의 데이터 스키마는 '''하나의 한문 텍스트 유닛(Text Unit)'''을 중심으로, AI 생성 데이터와 학습자 검토 데이터를 단일 테이블에 단계적으로 누적 저장하는 구조를 사용합니다.

===Ⅲ-1. 데이터 구조 개요===

====1) 설계 원칙====
* 하나의 텍스트 = 하나의 레코드
* 해석 과정의 각 단계 결과를 컬럼 단위로 분리
* AI 생성 데이터와 학습자 검토 데이터를 명확히 구분

====2) 프로젝트(project) / 데이터 테이블(table) / 데이터 레코드(record)====
* CCTI에서 '''프로젝트 (project)'''라는 용어의 의미는 특정한 목표를 갖는 하나의  '''한문 해석 연구 프로그램''', 또는 '''한문 해석 수업'''을 의미합니다.
* 하나의 프로젝트는 그것에 대응하는 하나의 데이터 테이블을 갖습니다.
* 데이터 테이블 안에는 여러 개의 데이터 레코드가 존재하는데, 각각의 레코드는 하나의 한문 텍스트에 대응합니다.
* 데이터 테이블의 이름은 프로젝트에 따라 다를 수 있지만, 레코드의 '''구조(Schema, 스키마)'''는 동일합니다.

===Ⅲ-2. 데이터베이스 레코드 구조===

<html>
<table border="1" cellspacing="0" cellpadding="6">
  <thead>
    <tr>
      <th>구분</th>
      <th>컬럼 이름</th>
      <th>데이터 타입</th>
      <th>설명</th>
      <th>비고</th>
    </tr>
  </thead>
  <tbody>
    <!-- 1. 식별 및 분류 정보 -->
    <tr>
      <td rowspan="2">1. 식별 및 분류 정보</td>
      <td>id</td>
      <td>nvarchar(40) not null</td>
      <td>텍스트 유닛의 고유 식별자</td>
      <td>모든 작업(편집·AI 생성·삭제)의 기준 키</td>
    </tr>
    <tr>
      <td>category</td>
      <td>nvarchar(40)</td>
      <td>텍스트의 분류 정보</td>
      <td>예: 경학서, 사서, 문집, 금석문 등<br/>AI 생성 시 참고 정보</td>
    </tr>

    <!-- 2. 원문 데이터 -->
    <tr>
      <td>2. 원문 데이터 (기초 입력)</td>
      <td>source_text</td>
      <td>XML</td>
      <td>학습자가 입력한 한문 원문</td>
      <td>&lt;text_unit&gt; 구조 XML<br/>모든 AI 처리의 기본 입력</td>
    </tr>

    <!-- 3. 표점 데이터 -->
    <tr>
      <td>3. 표점 데이터</td>
      <td>hanmun_punctuated</td>
      <td>XML</td>
      <td>AI가 생성한 표준 표점 한문 텍스트</td>
      <td>학습자 검토·수정 가능<br/>번역 생성의 기준 텍스트</td>
    </tr>

    <!-- 4. 용어사전 데이터 -->
    <tr>
      <td rowspan="2">4. 용어사전 데이터</td>
      <td>glossary_draft</td>
      <td>XML</td>
      <td>AI가 자동 생성한 용어사전 초안</td>
      <td>인명·지명·관직·개념·문법 설명 포함</td>
    </tr>
    <tr>
      <td>glossary_reviewed</td>
      <td>XML</td>
      <td>학습자가 검토·수정한 최종 용어사전</td>
      <td>번역 생성의 핵심 참조 데이터<br/>AI 제안 → 인간 판단 구조 명시</td>
    </tr>

    <!-- 5. 번역 데이터 -->
    <tr>
      <td rowspan="2">5. 번역 데이터</td>
      <td>translation_draft</td>
      <td>XML</td>
      <td>AI가 생성한 번역 초안</td>
      <td>표점본 + 용어사전 검토본 반영</td>
    </tr>
    <tr>
      <td>translation_reviewed</td>
      <td>XML</td>
      <td>학습자가 수정·확정한 최종 번역문</td>
      <td>CCTI 학습 과정의 최종 산출물</td>
    </tr>

    <!-- 6. 공유 및 메타 정보 -->
    <tr>
      <td rowspan="4">6. 공유 및 메타 정보</td>
      <td>infoUrl</td>
      <td>nvarchar(255)</td>
      <td>결과물을 공유하는 Wiki 페이지 주소</td>
      <td>프로젝트 Wiki 내 해당 문서 URL</td>
    </tr>
    <tr>
      <td>iconUrl</td>
      <td>nvarchar(255)</td>
      <td>관련 이미지 URL</td>
      <td>유묵·문헌·작품 이미지 등<br/>Wiki File URL 사용 권장</td>
    </tr>
    <tr>
      <td>remark</td>
      <td>nvarchar(255)</td>
      <td>텍스트에 대한 간단한 설명 또는 주석</td>
      <td>AI 생성 시 참고 정보</td>
    </tr>
    <tr>
      <td>curator</td>
      <td>nvarchar(40)</td>
      <td>텍스트 유닛을 생성한 사용자</td>
      <td>원문 입력 시 자동 입력<br/>생성자에게 삭제 권한 부여</td>
    </tr>
  </tbody>
</table>
</html>

※ CCTI 데이터 레코드 가운데 한문 텍스트를 저장하는 컬럼은 '''source_text, hanmun_punctuated, glossary_draft, glossary_reviewed, translation_draft, translation_reviewed'''인데, 이 컬럼들의 데이터 형식은 모두'''XML'''입니다. (각 컬럼 데이터의 XML 형식은 아래 제시한 '''CCTI 표준 XML 스키마'''를 부분적으로 채용)


===Ⅲ-3. XML 데이터 구조===

인공지능과의 소통은 평문(Plain Text)으로도 가능하지만, 정확한 지식 생산과 검토·재사용을 위해서는 구조화된 데이터가 필요합니다.

CCTI는 고전 한문 텍스트 처리에 적합한 XML 구조를 사용하며, 기본 형식은 다음 과 같습니다.


====1) CCTI 표준 XML 스키마====

{{box | width=100% | align=left | content =
<pre>
<text_unit id="">
  <hanmun_text punctuation_scheme="raw|standard|korean_style|japanese_style">
    ...
  </hanmun_text>  <!-- 한문 원문(복수 병렬 가능): raw|standard|korean_style|japanese_style -->

  <translation lang="KOR|ENG|CHN|JPN" status="source|draft|reviewed|final" version="1">
    ...
  </translation>  <!-- 번역문(복수 병렬 가능): KOR|ENG|CHN|JPN -->

  <glossary status="source|draft|reviewed|final" version="1">
    <term type="Person|Place|Event|Timespan|Object|Record|ArtWork|Food|Clothing|Concept|Grammar" id="">
      <lemma>
        <hanmun>...</hanmun>
        <korean>...</korean>
        <romanization system="RR|MR|Pinyin">...</romanization> <!-- 로마자 표기(복수 병렬 가능): RR/MR/Pinyin -->
      </lemma>

      <sense scope="this_text_unit|general">
        <definition>...</definition>
        <sense_note>...</sense_note>
      </sense>
    </term>
    ...
  </glossary>
</text_unit>
</pre>
}}

====2) XML 요소 설명====

* <text_unit>: 한 개 텍스트 유닛(원문·번역·용어사전)을 묶는 최상위 요소. id는 고유 식별자.

* <hanmun_text>: 한문 원문 텍스트. punctuation_scheme로 표점 방식 지정.

* <translation>: 번역문. lang(언어), status(단계), version(이력)으로 관리.

* <glossary>: 용어사전. status와 version으로 AI 생성본/검토본/확정본을 구분.

* <term>: 용어사전의 개별 항목. type(개체 유형), id(식별자) 포함.

* <lemma>: 용어 표제 정보(한문 표기, 한국어 대응, 로마자 표기).

* <romanization>: 로마자 표기. system으로 RR/MR/Pinyin 등 표기 체계 지정(복수 병렬 가능).

* <sense>: 의미 설명. scope로 텍스트 한정 의미/일반 의미 구분.

* <definition>: 용어 정의

* <sense_note>: 용어 의미 정의에 대한 보충 설명.

====3) 요소–속성 요약 표====

<html>
<!--table class="wikitable" style="width:100%; text-align:left;"-->
<table border="1" cellspacing="0" cellpadding="6">
  <thead>
    <tr>
      <th>요소(Element)</th>
      <th>속성(Attribute)</th>
      <th>값 / 타입</th>
      <th>설명</th>
      <th>비고</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td><b>text_unit</b></td>
      <td><b>id</b></td>
      <td>string</td>
      <td>텍스트 유닛 고유 식별자</td>
      <td>DB 기본 키와 1:1 대응</td>
    </tr>

    <tr>
      <td><b>hanmun_text</b></td>
      <td><b>punctuation_scheme</b></td>
      <td>raw | standard | korean_style | japanese_style</td>
      <td>표점 방식 지정</td>
      <td>번역 생성 기준 설정</td>
    </tr>

    <tr>
      <td rowspan="3"><b>translation</b></td>
      <td><b>lang</b></td>
      <td>KOR | ENG | CHN | JPN</td>
      <td>번역 언어</td>
      <td>다국어 확장 가능</td>
    </tr>
    <tr>
      <td><b>status</b></td>
      <td>source | draft | reviewed | final</td>
      <td>번역 단계</td>
      <td>AI 생성본/검토본/확정본 구분</td>
    </tr>
    <tr>
      <td><b>version</b></td>
      <td>number</td>
      <td>번역 버전</td>
      <td>증분 관리 권장</td>
    </tr>

    <tr>
      <td rowspan="2"><b>glossary</b></td>
      <td><b>status</b></td>
      <td>source | draft | reviewed | final</td>
      <td>용어사전 단계</td>
      <td>AI 제안 → 인간 판단 구조 명시</td>
    </tr>
    <tr>
      <td><b>version</b></td>
      <td>number</td>
      <td>용어사전 버전</td>
      <td>번역과 독립적 관리</td>
    </tr>

    <tr>
      <td rowspan="2"><b>term</b></td>
      <td><b>type</b></td>
      <td>Person | Place | Event | Timespan | Object | Record | ArtWork | Food | Clothing | Concept | Grammar</td>
      <td>용어 유형</td>
      <td>개체/개념/문법 구분</td>
    </tr>
    <tr>
      <td><b>id</b></td>
      <td>string</td>
      <td>용어 식별자</td>
      <td>재사용·링크 확장 가능</td>
    </tr>

    <tr>
      <td><b>romanization</b></td>
      <td><b>system</b></td>
      <td>RR | MR | Pinyin</td>
      <td>로마자 표기 체계</td>
      <td>동일 lemma에 복수 병렬 기록 가능</td>
    </tr>

    <tr>
      <td><b>sense</b></td>
      <td><b>scope</b></td>
      <td>this_text_unit | general</td>
      <td>의미 범위</td>
      <td>텍스트 특수 의미 구분</td>
    </tr>
  </tbody>
</table>
</html>

====4) 진행 단계별 사용 요소====

<html>
<!--table class="wikitable" style="width:100%; text-align:left;"-->
<table border="1" cellspacing="0" cellpadding="6">
  <thead>
    <tr>
      <th style="width:5%;">단계</th>
      <th style="width:10%;">작업</th>
      <th style="width:20%;">레코드 컬럼</th>
      <th style="width:40%;">XML 요소</th>
      <th style="width:10%;">주체</th>
      <th style="width:15%;">비고</th>
    </tr>
  </thead>
  <tbody>
    <!-- 1. 입력/수정 -->
    <tr>
      <td>1</td>
      <td>텍스트 유닛 입력 / 수정</td>
      <td><b>id</b>, <b>category</b>, <b>source_text</b>, <b>infoUrl</b>, <b>iconUrl</b>, <b>remark</b>, <b>curator</b></td>
      <td><b>hanmun_text[@punctuation_scheme="raw"]</b></td>
      <td>학습자</td>
      <td>학습자가 입력한 한문 원문과 메타데이터는 이후 AI 처리의 기준 입력 정보로 활용</td>
    </tr>

    <!-- 2. 표점 -->
    <tr>
      <td>2</td>
      <td>표준 표점 생성</td>
      <td>
        <b>hanmun_punctuated</br></td>
		<td><b>hanmun_text[@punctuation_scheme="standard"]</b></td>
      <td>AI → 학습자 검토</td>
      <td>이후 번역 생성의 기준 텍스트</td>
    </tr>

    <!-- 3. 용어사전 초안 -->
    <tr>
      <td>3</td>
      <td>용어사전 초안 생성</td>
      <td><b>glossary_draft</b></td>
	  <td><b>glossary[@status="draft"]</b></td>
      <td>AI</td>
      <td>인명·지명·관직·개념·문법 등 유형화</td>
    </tr>

    <!-- 4. 용어사전 검토 -->
    <tr>
      <td>4</td>
      <td>용어사전 검토/수정 및 확정</td>
      <td><b>glossary_reviewed</b></td>
      <td><b>glossary[@status="reviewed"]</b> 또는 <b>glossary[@status="final"]</b></td>
      <td>학습자</td>
      <td>AI 제안 → 인간 판단 단계의 핵심 영역</td>
    </tr>

    <!-- 5. 번역 초안 -->
    <tr>
      <td>5</td>
      <td>번역 초안 생성</td>
      <td><b>translation_draft</b></td>
	  <td><b>translation[@status="draft"]</b></td>
      <td>AI</td>
      <td>표점본 + 검토된 용어사전 반영</td>
    </tr>

    <!-- 6. 번역 검토 -->
    <tr>
      <td>6</td>
      <td>번역 검토/수정 및 확정</td>
      <td><b>translation_reviewed</b></td>
	  <td><b>translation[@status="reviewed"]</b> 또는 <b>translation[@status="final"]</b></td>
      <td>학습자</td>
      <td>학습자의 검토를 거친 최종번역 산출물</td>
    </tr>
  </tbody>
</table>
</html>