CCTI Schema: 두 판 사이의 차이

Vaquita Wiki
 
(같은 사용자의 중간 판 34개는 보이지 않습니다)
1번째 줄: 1번째 줄:
==Ⅲ-2. XML 데이터 구조==
{{ box | width=70% | align=center | content=AI 시대의 고전 해석 교육 모델<br/>
<font size=5>'''CCTI'''<br/>데이터 구조/형식 & XML 표준 스키마</font><br/>}}
<br/>


===1) CCTI 표준 XML 스키마===
<html>
인공지능과의 소통은 평문(Plain Text)으로도 가능하지만, 정확한 지식 생산과 검토·재사용을 위해서는 구조화된 데이터가 필요합니다. CCTI는 고전 한문 텍스트 처리에 적합한 XML 구조를 사용하며, 기본 형식은 다음과 같습니다.
<div style="float: right;margin: 0 10 0 40;">
<table border="0" style="margin:auto; width:10vw; text-align:center;">
<tr><td><img class="image" src="/static/icon/tutor.png" style="width: 120px;" /></td></tr>
<tr><td>김현<br/>Digital Curator</td></tr>
</table>
<br/>
</div>
</html>
 
===1. 데이터 구조 개요===
 
 
 
 
===1. 데이터 구조 개요===
 
* CCTI는 고전 한문 텍스트 해석을 진행하는 과정에서 입력/생성/편집되는 데이터를 모두 데이터베이스에 저장합니다.
 
※ DBMS: Microsoft SQL Server
 
* 이러한 데이터를 데이터베이스에 저장할 때 적용하는 데이터의 구조와 형식을 '''스키마(Schema)'''라고 합니다.
* CCTI의 데이터 스키마는 '''하나의 한문 텍스트 유닛(Text Unit)'''을 중심으로, AI 생성 데이터와 학습자 검토 데이터를 단일 테이블에 단계적으로 누적 저장하는 구조를 사용합니다.
 
====1) 설계 원칙====
* 하나의 텍스트 = 하나의 레코드
* 해석 과정의 각 단계 결과를 컬럼 단위로 분리
* AI 생성 데이터와 학습자 검토 데이터를 명확히 구분
 
====2) 프로젝트(project) / 데이터 테이블(table) / 데이터 레코드(record)====
* CCTI에서 '''프로젝트 (project)'''라는 용어의 의미는 특정한 목표를 갖는 하나의  '''한문 해석 연구 프로그램''', 또는 '''한문 해석 수업'''을 의미합니다.
* 하나의 프로젝트는 그것에 대응하는 하나의 데이터 테이블을 갖습니다.
* 데이터 테이블 안에는 여러 개의 데이터 레코드가 존재하는데, 각각의 레코드는 하나의 한문 텍스트에 대응합니다.
* 데이터 테이블의 이름은 프로젝트에 따라 다를 수 있지만, 레코드의 '''구조(Schema, 스키마)'''는 동일합니다.
 
===2. 데이터베이스 레코드 구조===
 
<html>
<table border="1" cellspacing="0" cellpadding="6">
  <thead>
    <tr>
      <th>구분</th>
      <th>컬럼 이름</th>
      <th>데이터 타입</th>
      <th>설명</th>
      <th>비고</th>
    </tr>
  </thead>
  <tbody>
    <!-- 1. 식별 및 분류 정보 -->
    <tr>
      <td rowspan="2">1. 식별 및 분류 정보</td>
      <td>id</td>
      <td>nvarchar(40) not null</td>
      <td>텍스트 유닛의 고유 식별자</td>
      <td>모든 작업(편집·AI 생성·삭제)의 기준 키</td>
    </tr>
    <tr>
      <td>category</td>
      <td>nvarchar(40)</td>
      <td>텍스트의 분류 정보</td>
      <td>예: 경학서, 사서, 문집, 금석문 등<br/>AI 생성 시 참고 정보</td>
    </tr>
 
    <!-- 2. 원문 데이터 -->
    <tr>
      <td>2. 원문 데이터 (기초 입력)</td>
      <td>source_text</td>
      <td>XML</td>
      <td>학습자가 입력한 한문 원문</td>
      <td>&lt;text_unit&gt; 구조 XML<br/>모든 AI 처리의 기본 입력</td>
    </tr>
 
    <!-- 3. 표점 데이터 -->
    <tr>
      <td>3. 표점 데이터</td>
      <td>hanmun_punctuated</td>
      <td>XML</td>
      <td>AI가 생성한 표준 표점 한문 텍스트</td>
      <td>학습자 검토·수정 가능<br/>번역 생성의 기준 텍스트</td>
    </tr>
 
    <!-- 4. 용어사전 데이터 -->
    <tr>
      <td rowspan="2">4. 용어사전 데이터</td>
      <td>glossary_draft</td>
      <td>XML</td>
      <td>AI가 자동 생성한 용어사전 초안</td>
      <td>인명·지명·관직·개념·문법 설명 포함</td>
    </tr>
    <tr>
      <td>glossary_reviewed</td>
      <td>XML</td>
      <td>학습자가 검토·수정한 최종 용어사전</td>
      <td>번역 생성의 핵심 참조 데이터<br/>AI 제안 → 인간 판단 구조 명시</td>
    </tr>
 
    <!-- 5. 번역 데이터 -->
    <tr>
      <td rowspan="2">5. 번역 데이터</td>
      <td>translation_draft</td>
      <td>XML</td>
      <td>AI가 생성한 번역 초안</td>
      <td>표점본 + 용어사전 검토본 반영</td>
    </tr>
    <tr>
      <td>translation_reviewed</td>
      <td>XML</td>
      <td>학습자가 수정·확정한 최종 번역문</td>
      <td>CCTI 학습 과정의 최종 산출물</td>
    </tr>
 
    <!-- 6. 공유 및 메타 정보 -->
    <tr>
      <td rowspan="4">6. 공유 및 메타 정보</td>
      <td>infoUrl</td>
      <td>nvarchar(255)</td>
      <td>결과물을 공유하는 Wiki 페이지 주소</td>
      <td>프로젝트 Wiki 내 해당 문서 URL</td>
    </tr>
    <tr>
      <td>iconUrl</td>
      <td>nvarchar(255)</td>
      <td>관련 이미지 URL</td>
      <td>유묵·문헌·작품 이미지 등<br/>Wiki File URL 사용 권장</td>
    </tr>
    <tr>
      <td>remark</td>
      <td>nvarchar(255)</td>
      <td>텍스트에 대한 간단한 설명 또는 주석</td>
      <td>AI 생성 시 참고 정보</td>
    </tr>
    <tr>
      <td>curator</td>
      <td>nvarchar(40)</td>
      <td>텍스트 유닛을 생성한 사용자</td>
      <td>원문 입력 시 자동 입력<br/>생성자에게 삭제 권한 부여</td>
    </tr>
  </tbody>
</table>
</html>
 
※ CCTI 데이터 레코드 가운데 한문 텍스트를 저장하는 컬럼은 '''source_text, hanmun_punctuated, glossary_draft, glossary_reviewed, translation_draft, translation_reviewed''' 등인데, 이 컬럼들의 데이터 형식은 모두'''XML'''입니다. (각 컬럼 데이터의 XML 형식은 아래 제시한 '''CCTI 표준 XML 스키마'''를 부분적으로 채용)
 
===3. XML 데이터 구조===
 
인공지능과의 소통은 평문(Plain Text)으로도 가능하지만, 정확한 지식 생산과 검토·재사용을 위해서는 구조화된 데이터가 필요합니다.
 
CCTI는 고전 한문 텍스트 처리에 적합한 XML 구조를 사용하며, 기본 형식은 다음 과 같습니다.
 
====1) CCTI 표준 XML 스키마====


{{box | width=100% | align=left | content =
{{box | width=100% | align=left | content =
9번째 줄: 160번째 줄:
   <hanmun_text punctuation_scheme="raw|standard|korean_style|japanese_style">
   <hanmun_text punctuation_scheme="raw|standard|korean_style|japanese_style">
     ...
     ...
    <annotation> .... </annotation>  <!-- 원문 주석(복수 병렬 가능): 원문에 주석이 딸린 경우 -->
   </hanmun_text>  <!-- 한문 원문(복수 병렬 가능): raw|standard|korean_style|japanese_style -->
   </hanmun_text>  <!-- 한문 원문(복수 병렬 가능): raw|standard|korean_style|japanese_style -->


22번째 줄: 174번째 줄:
         <romanization system="RR|MR|Pinyin">...</romanization> <!-- 로마자 표기(복수 병렬 가능): RR/MR/Pinyin -->
         <romanization system="RR|MR|Pinyin">...</romanization> <!-- 로마자 표기(복수 병렬 가능): RR/MR/Pinyin -->
       </lemma>
       </lemma>
       <sense scope="this_text_unit|general">
       <sense scope="this_text_unit|general">
         <definition>...</definition>
         <definition>...</definition>
         <sense_note>...</sense_note>
         <sense_note>...</sense_note>
       </sense>
       </sense>
     </term>
     </term> <!-- 용어(복수 병렬 가능): 건수는 텍스트 길이, 내용에 따라 변동 -->
     ...
     ...
   </glossary>
   </glossary>
</text_unit>
</text_unit>
</pre>
</pre>
}}
}}


===2) XML 요소 설명===
====2) XML 요소 설명====


* <text_unit>: 한 개 텍스트 유닛(원문·번역·용어사전)을 묶는 최상위 요소. id는 고유 식별자.
* <text_unit>: 한 개 텍스트 유닛(원문·번역·용어사전)을 묶는 최상위 요소. id는 고유 식별자.


* <hanmun_text>: 한문 원문 텍스트. punctuation_scheme로 표점 방식 지정.
* <hanmun_text>: 한문 원문 텍스트. punctuation_scheme 속성으로 표점 방식 지정.
 
* <annotation>: 한문 주석 텍스트. annotator 속성으로 주석가 표기


* <translation>: 번역문. lang(언어), status(단계), version(이력)으로 관리.
* <translation>: 번역문. lang(언어), status(단계), version(이력)으로 관리.
48번째 줄: 202번째 줄:
* <lemma>: 용어 표제 정보(한문 표기, 한국어 대응, 로마자 표기).
* <lemma>: 용어 표제 정보(한문 표기, 한국어 대응, 로마자 표기).


* <romanization>: 로마자 표기. system으로 RR/MR/Pinyin 등 표기 체계 지정(복수 병렬 가능).
* <romanization>: 로마자 표기. system 속성으로 RR/MR/Pinyin 등 표기 체계 지정(복수 병렬 가능).


* <sense>: 의미 설명. scope로 텍스트 한정 의미/일반 의미 구분.
* <sense>: 의미 설명. scope로 텍스트 한정 의미/일반 의미 구분.
56번째 줄: 210번째 줄:
* <sense_note>: 용어 의미 정의에 대한 보충 설명.
* <sense_note>: 용어 의미 정의에 대한 보충 설명.


===3) 요소–속성 요약 표===
====3) 요소–속성 요약 표====


<html>
<html>
<table class="wikitable" style="width:100%; text-align:left;">
<!--table class="wikitable" style="width:100%; text-align:left;"-->
<table border="1" cellspacing="0" cellpadding="6">
   <thead>
   <thead>
     <tr>
     <tr>
84번째 줄: 239번째 줄:
       <td>표점 방식 지정</td>
       <td>표점 방식 지정</td>
       <td>번역 생성 기준 설정</td>
       <td>번역 생성 기준 설정</td>
    </tr>
    <tr>
      <td><b>annotation</b></td>
      <td><b>annotator</b></td>
      <td>string</td>
      <td>원문에 딸린 주석문</td>
      <td>복수의 주석을 주석가 표기로 구분</td>
     </tr>
     </tr>


153번째 줄: 316번째 줄:
</html>
</html>


===4) 진행 단계별 사용 요소===
====4) 진행 단계별 사용 요소====


<html>
<html>
<table class="wikitable" style="width:100%; text-align:left;">
<!--table class="wikitable" style="width:100%; text-align:left;"-->
<table border="1" cellspacing="0" cellpadding="6">
   <thead>
   <thead>
     <tr>
     <tr>
231번째 줄: 395번째 줄:
</table>
</table>
</html>
</html>
===4. CCTI 데이터의 활용===
CCTI의 운용 과정에서 축적된 한문 해석 데이터는 향후 '''한문 고전 용어·용례사전''' 편찬, '''한문 텍스트 분석 심화 연구''' 및 '''고전 한문 해석 전문 AI(Vertical Model)''' 개발을 위한 기반 데이터로 활용될 수 있습니다.
{{ box | width=90% | align=center | content=
CCTI는 고전 한문 텍스트 해석을 진행하는 과정에서 입력/생성/편집되는 데이터를 모두 데이터베이스에 저장합니다.<br/>이 데이터는 향후 '''고전 한문 해석 전문 AI(Vertical Model)''' 개발에 기여할 것입니다.
}}
----
[[AI 고전번역학 | ☞ AI 고전번역학 전문과정]] [[분류:AI 고전번역학]]

2026년 1월 15일 (목) 00:41 기준 최신판

AI 시대의 고전 해석 교육 모델
CCTI
데이터 구조/형식 & XML 표준 스키마


김현
Digital Curator

1. 데이터 구조 개요[편집]

1. 데이터 구조 개요[편집]

  • CCTI는 고전 한문 텍스트 해석을 진행하는 과정에서 입력/생성/편집되는 데이터를 모두 데이터베이스에 저장합니다.

※ DBMS: Microsoft SQL Server

  • 이러한 데이터를 데이터베이스에 저장할 때 적용하는 데이터의 구조와 형식을 스키마(Schema)라고 합니다.
  • CCTI의 데이터 스키마는 하나의 한문 텍스트 유닛(Text Unit)을 중심으로, AI 생성 데이터와 학습자 검토 데이터를 단일 테이블에 단계적으로 누적 저장하는 구조를 사용합니다.

1) 설계 원칙[편집]

  • 하나의 텍스트 = 하나의 레코드
  • 해석 과정의 각 단계 결과를 컬럼 단위로 분리
  • AI 생성 데이터와 학습자 검토 데이터를 명확히 구분

2) 프로젝트(project) / 데이터 테이블(table) / 데이터 레코드(record)[편집]

  • CCTI에서 프로젝트 (project)라는 용어의 의미는 특정한 목표를 갖는 하나의 한문 해석 연구 프로그램, 또는 한문 해석 수업을 의미합니다.
  • 하나의 프로젝트는 그것에 대응하는 하나의 데이터 테이블을 갖습니다.
  • 데이터 테이블 안에는 여러 개의 데이터 레코드가 존재하는데, 각각의 레코드는 하나의 한문 텍스트에 대응합니다.
  • 데이터 테이블의 이름은 프로젝트에 따라 다를 수 있지만, 레코드의 구조(Schema, 스키마)는 동일합니다.

2. 데이터베이스 레코드 구조[편집]

구분 컬럼 이름 데이터 타입 설명 비고
1. 식별 및 분류 정보 id nvarchar(40) not null 텍스트 유닛의 고유 식별자 모든 작업(편집·AI 생성·삭제)의 기준 키
category nvarchar(40) 텍스트의 분류 정보 예: 경학서, 사서, 문집, 금석문 등
AI 생성 시 참고 정보
2. 원문 데이터 (기초 입력) source_text XML 학습자가 입력한 한문 원문 <text_unit> 구조 XML
모든 AI 처리의 기본 입력
3. 표점 데이터 hanmun_punctuated XML AI가 생성한 표준 표점 한문 텍스트 학습자 검토·수정 가능
번역 생성의 기준 텍스트
4. 용어사전 데이터 glossary_draft XML AI가 자동 생성한 용어사전 초안 인명·지명·관직·개념·문법 설명 포함
glossary_reviewed XML 학습자가 검토·수정한 최종 용어사전 번역 생성의 핵심 참조 데이터
AI 제안 → 인간 판단 구조 명시
5. 번역 데이터 translation_draft XML AI가 생성한 번역 초안 표점본 + 용어사전 검토본 반영
translation_reviewed XML 학습자가 수정·확정한 최종 번역문 CCTI 학습 과정의 최종 산출물
6. 공유 및 메타 정보 infoUrl nvarchar(255) 결과물을 공유하는 Wiki 페이지 주소 프로젝트 Wiki 내 해당 문서 URL
iconUrl nvarchar(255) 관련 이미지 URL 유묵·문헌·작품 이미지 등
Wiki File URL 사용 권장
remark nvarchar(255) 텍스트에 대한 간단한 설명 또는 주석 AI 생성 시 참고 정보
curator nvarchar(40) 텍스트 유닛을 생성한 사용자 원문 입력 시 자동 입력
생성자에게 삭제 권한 부여

※ CCTI 데이터 레코드 가운데 한문 텍스트를 저장하는 컬럼은 source_text, hanmun_punctuated, glossary_draft, glossary_reviewed, translation_draft, translation_reviewed 등인데, 이 컬럼들의 데이터 형식은 모두XML입니다. (각 컬럼 데이터의 XML 형식은 아래 제시한 CCTI 표준 XML 스키마를 부분적으로 채용)

3. XML 데이터 구조[편집]

인공지능과의 소통은 평문(Plain Text)으로도 가능하지만, 정확한 지식 생산과 검토·재사용을 위해서는 구조화된 데이터가 필요합니다.

CCTI는 고전 한문 텍스트 처리에 적합한 XML 구조를 사용하며, 기본 형식은 다음 과 같습니다.

1) CCTI 표준 XML 스키마[편집]

<text_unit id="">
  <hanmun_text punctuation_scheme="raw|standard|korean_style|japanese_style">
    ...
    <annotation> .... </annotation>   <!-- 원문 주석(복수 병렬 가능): 원문에 주석이 딸린 경우 -->
  </hanmun_text>  <!-- 한문 원문(복수 병렬 가능): raw|standard|korean_style|japanese_style -->

  <translation lang="KOR|ENG|CHN|JPN" status="source|draft|reviewed|final" version="1">
    ...
  </translation>  <!-- 번역문(복수 병렬 가능): KOR|ENG|CHN|JPN -->

  <glossary status="source|draft|reviewed|final" version="1">
    <term type="Person|Place|Event|Timespan|Object|Record|ArtWork|Food|Clothing|Concept|Grammar" id="">
      <lemma>
        <hanmun>...</hanmun>
        <korean>...</korean>
        <romanization system="RR|MR|Pinyin">...</romanization> <!-- 로마자 표기(복수 병렬 가능): RR/MR/Pinyin -->
      </lemma>
      <sense scope="this_text_unit|general">
        <definition>...</definition>
        <sense_note>...</sense_note>
      </sense>
    </term> <!-- 용어(복수 병렬 가능): 건수는 텍스트 길이, 내용에 따라 변동 -->
    ...
  </glossary>

</text_unit>

2) XML 요소 설명[편집]

  • <text_unit>: 한 개 텍스트 유닛(원문·번역·용어사전)을 묶는 최상위 요소. id는 고유 식별자.
  • <hanmun_text>: 한문 원문 텍스트. punctuation_scheme 속성으로 표점 방식 지정.
  • <annotation>: 한문 주석 텍스트. annotator 속성으로 주석가 표기
  • <translation>: 번역문. lang(언어), status(단계), version(이력)으로 관리.
  • <glossary>: 용어사전. status와 version으로 AI 생성본/검토본/확정본을 구분.
  • <term>: 용어사전의 개별 항목. type(개체 유형), id(식별자) 포함.
  • <lemma>: 용어 표제 정보(한문 표기, 한국어 대응, 로마자 표기).
  • <romanization>: 로마자 표기. system 속성으로 RR/MR/Pinyin 등 표기 체계 지정(복수 병렬 가능).
  • <sense>: 의미 설명. scope로 텍스트 한정 의미/일반 의미 구분.
  • <definition>: 용어 정의
  • <sense_note>: 용어 의미 정의에 대한 보충 설명.

3) 요소–속성 요약 표[편집]

요소(Element) 속성(Attribute) 값 / 타입 설명 비고
text_unit id string 텍스트 유닛 고유 식별자 DB 기본 키와 1:1 대응
hanmun_text punctuation_scheme raw | standard | korean_style | japanese_style 표점 방식 지정 번역 생성 기준 설정
annotation annotator string 원문에 딸린 주석문 복수의 주석을 주석가 표기로 구분
translation lang KOR | ENG | CHN | JPN 번역 언어 다국어 확장 가능
status source | draft | reviewed | final 번역 단계 AI 생성본/검토본/확정본 구분
version number 번역 버전 증분 관리 권장
glossary status source | draft | reviewed | final 용어사전 단계 AI 제안 → 인간 판단 구조 명시
version number 용어사전 버전 번역과 독립적 관리
term type Person | Place | Event | Timespan | Object | Record | ArtWork | Food | Clothing | Concept | Grammar 용어 유형 개체/개념/문법 구분
id string 용어 식별자 재사용·링크 확장 가능
romanization system RR | MR | Pinyin 로마자 표기 체계 동일 lemma에 복수 병렬 기록 가능
sense scope this_text_unit | general 의미 범위 텍스트 특수 의미 구분

4) 진행 단계별 사용 요소[편집]

단계 작업 레코드 컬럼 XML 요소 주체 비고
1 텍스트 유닛 입력 / 수정 id, category, source_text, infoUrl, iconUrl, remark, curator hanmun_text[@punctuation_scheme="raw"] 학습자 학습자가 입력한 한문 원문과 메타데이터는 이후 AI 처리의 기준 입력 정보로 활용
2 표준 표점 생성 hanmun_punctuated
hanmun_text[@punctuation_scheme="standard"] AI → 학습자 검토 이후 번역 생성의 기준 텍스트
3 용어사전 초안 생성 glossary_draft glossary[@status="draft"] AI 인명·지명·관직·개념·문법 등 유형화
4 용어사전 검토/수정 및 확정 glossary_reviewed glossary[@status="reviewed"] 또는 glossary[@status="final"] 학습자 AI 제안 → 인간 판단 단계의 핵심 영역
5 번역 초안 생성 translation_draft translation[@status="draft"] AI 표점본 + 검토된 용어사전 반영
6 번역 검토/수정 및 확정 translation_reviewed translation[@status="reviewed"] 또는 translation[@status="final"] 학습자 학습자의 검토를 거친 최종번역 산출물

4. CCTI 데이터의 활용[편집]

CCTI의 운용 과정에서 축적된 한문 해석 데이터는 향후 한문 고전 용어·용례사전 편찬, 한문 텍스트 분석 심화 연구고전 한문 해석 전문 AI(Vertical Model) 개발을 위한 기반 데이터로 활용될 수 있습니다.

CCTI는 고전 한문 텍스트 해석을 진행하는 과정에서 입력/생성/편집되는 데이터를 모두 데이터베이스에 저장합니다.
이 데이터는 향후 고전 한문 해석 전문 AI(Vertical Model) 개발에 기여할 것입니다.



☞ AI 고전번역학 전문과정