CCTI Schema: 두 판 사이의 차이

Vaquita Wiki
편집 요약 없음
 
(같은 사용자의 중간 판 27개는 보이지 않습니다)
1번째 줄: 1번째 줄:
==Ⅲ. 데이터 형식==
{{ box | width=70% | align=center | content=AI 시대의 고전 해석 교육 모델<br/>
<font size=5>'''CCTI'''<br/>데이터 구조/형식 & XML 표준 스키마</font><br/>}}
<br/>


CCTI는 고전 한문 텍스트 해석을 진행하는 과정에서 입력/생성/편집되는 데이터를 모두 데이터베이스에 저장합니다. (※ DBMS: Microsoft SQL Server)
<html>
<div style="float: right;margin: 0 10 0 40;">
<table border="0" style="margin:auto; width:10vw; text-align:center;">
<tr><td><img class="image" src="/static/icon/tutor.png" style="width: 120px;" /></td></tr>
<tr><td>김현<br/>Digital Curator</td></tr>
</table>
<br/>
</div>
</html>
 
===1. 데이터 구조 개요===
 
 
 
 
===1. 데이터 구조 개요===


이러한 데이터를 데이터베이스에 저장할 때 적용하는 데이터 형식의 ''''구조(Schema, 스키마)'''를 '''데이터 형식'''이라고 합니다.\
* CCTI는 고전 한문 텍스트 해석을 진행하는 과정에서 입력/생성/편집되는 데이터를 모두 데이터베이스에 저장합니다.


CCTI의 데이터 스키마는 '''하나의 한문 텍스트 유닛(Text Unit)'''을 중심으로, AI 생성 데이터와 학습자 검토 데이터를 단일 테이블에 단계적으로 누적 저장하는 구조를 사용합니다.
※ DBMS: Microsoft SQL Server


===Ⅲ-1. 데이터 구조 개요===
* 이러한 데이터를 데이터베이스에 저장할 때 적용하는 데이터의 구조와 형식을 '''스키마(Schema)'''라고 합니다.
* CCTI의 데이터 스키마는 '''하나의 한문 텍스트 유닛(Text Unit)'''을 중심으로, AI 생성 데이터와 학습자 검토 데이터를 단일 테이블에 단계적으로 누적 저장하는 구조를 사용합니다.


====1) 설계 원칙====
====1) 설계 원칙====
20번째 줄: 38번째 줄:
* 데이터 테이블의 이름은 프로젝트에 따라 다를 수 있지만, 레코드의 '''구조(Schema, 스키마)'''는 동일합니다.
* 데이터 테이블의 이름은 프로젝트에 따라 다를 수 있지만, 레코드의 '''구조(Schema, 스키마)'''는 동일합니다.


===Ⅲ-2. 데이터베이스 레코드 구조===
===2. 데이터베이스 레코드 구조===


<html>
<html>
127번째 줄: 145번째 줄:
</html>
</html>


===Ⅲ-3. XML 데이터 구조===
※ CCTI 데이터 레코드 가운데 한문 텍스트를 저장하는 컬럼은 '''source_text, hanmun_punctuated, glossary_draft, glossary_reviewed, translation_draft, translation_reviewed''' 등인데, 이 컬럼들의 데이터 형식은 모두'''XML'''입니다. (각 컬럼 데이터의 XML 형식은 아래 제시한 '''CCTI 표준 XML 스키마'''를 부분적으로 채용)
 
===3. XML 데이터 구조===


인공지능과의 소통은 평문(Plain Text)으로도 가능하지만, 정확한 지식 생산과 검토·재사용을 위해서는 구조화된 데이터가 필요합니다.
인공지능과의 소통은 평문(Plain Text)으로도 가능하지만, 정확한 지식 생산과 검토·재사용을 위해서는 구조화된 데이터가 필요합니다.


CCTI 데이터 레코드 가운데 한문 텍스트를 저장하는 컬럼은 '''source_text, hanmun_punctuated, glossary_draft, glossary_reviewed, translation_draft, translation_reviewed'''인데, 이 컬럼들의 데이터 형식은 XML입니다.
CCTI는 고전 한문 텍스트 처리에 적합한 XML 구조를 사용하며, 기본 형식은 다음 과 같습니다.
 
각 컬럼 데이터의 XML 형식은 아래 제시한 '''CCTI 표준 XML 스키마'''를 부분적으로 채용한 것입니다.
 


====1) CCTI 표준 XML 스키마====
====1) CCTI 표준 XML 스키마====
CCTI는 고전 한문 텍스트 처리에 적합한 XML 구조를 사용하며, 기본 형식은 다음 과 같습니다.


{{box | width=100% | align=left | content =
{{box | width=100% | align=left | content =
144번째 줄: 160번째 줄:
   <hanmun_text punctuation_scheme="raw|standard|korean_style|japanese_style">
   <hanmun_text punctuation_scheme="raw|standard|korean_style|japanese_style">
     ...
     ...
    <annotation> .... </annotation>  <!-- 원문 주석(복수 병렬 가능): 원문에 주석이 딸린 경우 -->
   </hanmun_text>  <!-- 한문 원문(복수 병렬 가능): raw|standard|korean_style|japanese_style -->
   </hanmun_text>  <!-- 한문 원문(복수 병렬 가능): raw|standard|korean_style|japanese_style -->


157번째 줄: 174번째 줄:
         <romanization system="RR|MR|Pinyin">...</romanization> <!-- 로마자 표기(복수 병렬 가능): RR/MR/Pinyin -->
         <romanization system="RR|MR|Pinyin">...</romanization> <!-- 로마자 표기(복수 병렬 가능): RR/MR/Pinyin -->
       </lemma>
       </lemma>
       <sense scope="this_text_unit|general">
       <sense scope="this_text_unit|general">
         <definition>...</definition>
         <definition>...</definition>
         <sense_note>...</sense_note>
         <sense_note>...</sense_note>
       </sense>
       </sense>
     </term>
     </term> <!-- 용어(복수 병렬 가능): 건수는 텍스트 길이, 내용에 따라 변동 -->
     ...
     ...
   </glossary>
   </glossary>
</text_unit>
</text_unit>
</pre>
</pre>
173번째 줄: 190번째 줄:
* <text_unit>: 한 개 텍스트 유닛(원문·번역·용어사전)을 묶는 최상위 요소. id는 고유 식별자.
* <text_unit>: 한 개 텍스트 유닛(원문·번역·용어사전)을 묶는 최상위 요소. id는 고유 식별자.


* <hanmun_text>: 한문 원문 텍스트. punctuation_scheme로 표점 방식 지정.
* <hanmun_text>: 한문 원문 텍스트. punctuation_scheme 속성으로 표점 방식 지정.
 
* <annotation>: 한문 주석 텍스트. annotator 속성으로 주석가 표기


* <translation>: 번역문. lang(언어), status(단계), version(이력)으로 관리.
* <translation>: 번역문. lang(언어), status(단계), version(이력)으로 관리.
183번째 줄: 202번째 줄:
* <lemma>: 용어 표제 정보(한문 표기, 한국어 대응, 로마자 표기).
* <lemma>: 용어 표제 정보(한문 표기, 한국어 대응, 로마자 표기).


* <romanization>: 로마자 표기. system으로 RR/MR/Pinyin 등 표기 체계 지정(복수 병렬 가능).
* <romanization>: 로마자 표기. system 속성으로 RR/MR/Pinyin 등 표기 체계 지정(복수 병렬 가능).


* <sense>: 의미 설명. scope로 텍스트 한정 의미/일반 의미 구분.
* <sense>: 의미 설명. scope로 텍스트 한정 의미/일반 의미 구분.
194번째 줄: 213번째 줄:


<html>
<html>
<!table class="wikitable" style="width:100%; text-align:left;"-->
<!--table class="wikitable" style="width:100%; text-align:left;"-->
<table border="1" cellspacing="0" cellpadding="6">
<table border="1" cellspacing="0" cellpadding="6">
   <thead>
   <thead>
220번째 줄: 239번째 줄:
       <td>표점 방식 지정</td>
       <td>표점 방식 지정</td>
       <td>번역 생성 기준 설정</td>
       <td>번역 생성 기준 설정</td>
    </tr>
    <tr>
      <td><b>annotation</b></td>
      <td><b>annotator</b></td>
      <td>string</td>
      <td>원문에 딸린 주석문</td>
      <td>복수의 주석을 주석가 표기로 구분</td>
     </tr>
     </tr>


292번째 줄: 319번째 줄:


<html>
<html>
<! table class="wikitable" style="width:100%; text-align:left;"-->
<!--table class="wikitable" style="width:100%; text-align:left;"-->
<table border="1" cellspacing="0" cellpadding="6">
<table border="1" cellspacing="0" cellpadding="6">
   <thead>
   <thead>
368번째 줄: 395번째 줄:
</table>
</table>
</html>
</html>
===4. CCTI 데이터의 활용===
CCTI의 운용 과정에서 축적된 한문 해석 데이터는 향후 '''한문 고전 용어·용례사전''' 편찬, '''한문 텍스트 분석 심화 연구''' 및 '''고전 한문 해석 전문 AI(Vertical Model)''' 개발을 위한 기반 데이터로 활용될 수 있습니다.
{{ box | width=90% | align=center | content=
CCTI는 고전 한문 텍스트 해석을 진행하는 과정에서 입력/생성/편집되는 데이터를 모두 데이터베이스에 저장합니다.<br/>이 데이터는 향후 '''고전 한문 해석 전문 AI(Vertical Model)''' 개발에 기여할 것입니다.
}}
----
[[AI 고전번역학 | ☞ AI 고전번역학 전문과정]] [[분류:AI 고전번역학]]

2026년 1월 15일 (목) 00:41 기준 최신판

AI 시대의 고전 해석 교육 모델
CCTI
데이터 구조/형식 & XML 표준 스키마


김현
Digital Curator

1. 데이터 구조 개요[편집]

1. 데이터 구조 개요[편집]

  • CCTI는 고전 한문 텍스트 해석을 진행하는 과정에서 입력/생성/편집되는 데이터를 모두 데이터베이스에 저장합니다.

※ DBMS: Microsoft SQL Server

  • 이러한 데이터를 데이터베이스에 저장할 때 적용하는 데이터의 구조와 형식을 스키마(Schema)라고 합니다.
  • CCTI의 데이터 스키마는 하나의 한문 텍스트 유닛(Text Unit)을 중심으로, AI 생성 데이터와 학습자 검토 데이터를 단일 테이블에 단계적으로 누적 저장하는 구조를 사용합니다.

1) 설계 원칙[편집]

  • 하나의 텍스트 = 하나의 레코드
  • 해석 과정의 각 단계 결과를 컬럼 단위로 분리
  • AI 생성 데이터와 학습자 검토 데이터를 명확히 구분

2) 프로젝트(project) / 데이터 테이블(table) / 데이터 레코드(record)[편집]

  • CCTI에서 프로젝트 (project)라는 용어의 의미는 특정한 목표를 갖는 하나의 한문 해석 연구 프로그램, 또는 한문 해석 수업을 의미합니다.
  • 하나의 프로젝트는 그것에 대응하는 하나의 데이터 테이블을 갖습니다.
  • 데이터 테이블 안에는 여러 개의 데이터 레코드가 존재하는데, 각각의 레코드는 하나의 한문 텍스트에 대응합니다.
  • 데이터 테이블의 이름은 프로젝트에 따라 다를 수 있지만, 레코드의 구조(Schema, 스키마)는 동일합니다.

2. 데이터베이스 레코드 구조[편집]

구분 컬럼 이름 데이터 타입 설명 비고
1. 식별 및 분류 정보 id nvarchar(40) not null 텍스트 유닛의 고유 식별자 모든 작업(편집·AI 생성·삭제)의 기준 키
category nvarchar(40) 텍스트의 분류 정보 예: 경학서, 사서, 문집, 금석문 등
AI 생성 시 참고 정보
2. 원문 데이터 (기초 입력) source_text XML 학습자가 입력한 한문 원문 <text_unit> 구조 XML
모든 AI 처리의 기본 입력
3. 표점 데이터 hanmun_punctuated XML AI가 생성한 표준 표점 한문 텍스트 학습자 검토·수정 가능
번역 생성의 기준 텍스트
4. 용어사전 데이터 glossary_draft XML AI가 자동 생성한 용어사전 초안 인명·지명·관직·개념·문법 설명 포함
glossary_reviewed XML 학습자가 검토·수정한 최종 용어사전 번역 생성의 핵심 참조 데이터
AI 제안 → 인간 판단 구조 명시
5. 번역 데이터 translation_draft XML AI가 생성한 번역 초안 표점본 + 용어사전 검토본 반영
translation_reviewed XML 학습자가 수정·확정한 최종 번역문 CCTI 학습 과정의 최종 산출물
6. 공유 및 메타 정보 infoUrl nvarchar(255) 결과물을 공유하는 Wiki 페이지 주소 프로젝트 Wiki 내 해당 문서 URL
iconUrl nvarchar(255) 관련 이미지 URL 유묵·문헌·작품 이미지 등
Wiki File URL 사용 권장
remark nvarchar(255) 텍스트에 대한 간단한 설명 또는 주석 AI 생성 시 참고 정보
curator nvarchar(40) 텍스트 유닛을 생성한 사용자 원문 입력 시 자동 입력
생성자에게 삭제 권한 부여

※ CCTI 데이터 레코드 가운데 한문 텍스트를 저장하는 컬럼은 source_text, hanmun_punctuated, glossary_draft, glossary_reviewed, translation_draft, translation_reviewed 등인데, 이 컬럼들의 데이터 형식은 모두XML입니다. (각 컬럼 데이터의 XML 형식은 아래 제시한 CCTI 표준 XML 스키마를 부분적으로 채용)

3. XML 데이터 구조[편집]

인공지능과의 소통은 평문(Plain Text)으로도 가능하지만, 정확한 지식 생산과 검토·재사용을 위해서는 구조화된 데이터가 필요합니다.

CCTI는 고전 한문 텍스트 처리에 적합한 XML 구조를 사용하며, 기본 형식은 다음 과 같습니다.

1) CCTI 표준 XML 스키마[편집]

<text_unit id="">
  <hanmun_text punctuation_scheme="raw|standard|korean_style|japanese_style">
    ...
    <annotation> .... </annotation>   <!-- 원문 주석(복수 병렬 가능): 원문에 주석이 딸린 경우 -->
  </hanmun_text>  <!-- 한문 원문(복수 병렬 가능): raw|standard|korean_style|japanese_style -->

  <translation lang="KOR|ENG|CHN|JPN" status="source|draft|reviewed|final" version="1">
    ...
  </translation>  <!-- 번역문(복수 병렬 가능): KOR|ENG|CHN|JPN -->

  <glossary status="source|draft|reviewed|final" version="1">
    <term type="Person|Place|Event|Timespan|Object|Record|ArtWork|Food|Clothing|Concept|Grammar" id="">
      <lemma>
        <hanmun>...</hanmun>
        <korean>...</korean>
        <romanization system="RR|MR|Pinyin">...</romanization> <!-- 로마자 표기(복수 병렬 가능): RR/MR/Pinyin -->
      </lemma>
      <sense scope="this_text_unit|general">
        <definition>...</definition>
        <sense_note>...</sense_note>
      </sense>
    </term> <!-- 용어(복수 병렬 가능): 건수는 텍스트 길이, 내용에 따라 변동 -->
    ...
  </glossary>

</text_unit>

2) XML 요소 설명[편집]

  • <text_unit>: 한 개 텍스트 유닛(원문·번역·용어사전)을 묶는 최상위 요소. id는 고유 식별자.
  • <hanmun_text>: 한문 원문 텍스트. punctuation_scheme 속성으로 표점 방식 지정.
  • <annotation>: 한문 주석 텍스트. annotator 속성으로 주석가 표기
  • <translation>: 번역문. lang(언어), status(단계), version(이력)으로 관리.
  • <glossary>: 용어사전. status와 version으로 AI 생성본/검토본/확정본을 구분.
  • <term>: 용어사전의 개별 항목. type(개체 유형), id(식별자) 포함.
  • <lemma>: 용어 표제 정보(한문 표기, 한국어 대응, 로마자 표기).
  • <romanization>: 로마자 표기. system 속성으로 RR/MR/Pinyin 등 표기 체계 지정(복수 병렬 가능).
  • <sense>: 의미 설명. scope로 텍스트 한정 의미/일반 의미 구분.
  • <definition>: 용어 정의
  • <sense_note>: 용어 의미 정의에 대한 보충 설명.

3) 요소–속성 요약 표[편집]

요소(Element) 속성(Attribute) 값 / 타입 설명 비고
text_unit id string 텍스트 유닛 고유 식별자 DB 기본 키와 1:1 대응
hanmun_text punctuation_scheme raw | standard | korean_style | japanese_style 표점 방식 지정 번역 생성 기준 설정
annotation annotator string 원문에 딸린 주석문 복수의 주석을 주석가 표기로 구분
translation lang KOR | ENG | CHN | JPN 번역 언어 다국어 확장 가능
status source | draft | reviewed | final 번역 단계 AI 생성본/검토본/확정본 구분
version number 번역 버전 증분 관리 권장
glossary status source | draft | reviewed | final 용어사전 단계 AI 제안 → 인간 판단 구조 명시
version number 용어사전 버전 번역과 독립적 관리
term type Person | Place | Event | Timespan | Object | Record | ArtWork | Food | Clothing | Concept | Grammar 용어 유형 개체/개념/문법 구분
id string 용어 식별자 재사용·링크 확장 가능
romanization system RR | MR | Pinyin 로마자 표기 체계 동일 lemma에 복수 병렬 기록 가능
sense scope this_text_unit | general 의미 범위 텍스트 특수 의미 구분

4) 진행 단계별 사용 요소[편집]

단계 작업 레코드 컬럼 XML 요소 주체 비고
1 텍스트 유닛 입력 / 수정 id, category, source_text, infoUrl, iconUrl, remark, curator hanmun_text[@punctuation_scheme="raw"] 학습자 학습자가 입력한 한문 원문과 메타데이터는 이후 AI 처리의 기준 입력 정보로 활용
2 표준 표점 생성 hanmun_punctuated
hanmun_text[@punctuation_scheme="standard"] AI → 학습자 검토 이후 번역 생성의 기준 텍스트
3 용어사전 초안 생성 glossary_draft glossary[@status="draft"] AI 인명·지명·관직·개념·문법 등 유형화
4 용어사전 검토/수정 및 확정 glossary_reviewed glossary[@status="reviewed"] 또는 glossary[@status="final"] 학습자 AI 제안 → 인간 판단 단계의 핵심 영역
5 번역 초안 생성 translation_draft translation[@status="draft"] AI 표점본 + 검토된 용어사전 반영
6 번역 검토/수정 및 확정 translation_reviewed translation[@status="reviewed"] 또는 translation[@status="final"] 학습자 학습자의 검토를 거친 최종번역 산출물

4. CCTI 데이터의 활용[편집]

CCTI의 운용 과정에서 축적된 한문 해석 데이터는 향후 한문 고전 용어·용례사전 편찬, 한문 텍스트 분석 심화 연구고전 한문 해석 전문 AI(Vertical Model) 개발을 위한 기반 데이터로 활용될 수 있습니다.

CCTI는 고전 한문 텍스트 해석을 진행하는 과정에서 입력/생성/편집되는 데이터를 모두 데이터베이스에 저장합니다.
이 데이터는 향후 고전 한문 해석 전문 AI(Vertical Model) 개발에 기여할 것입니다.



☞ AI 고전번역학 전문과정