CCTI Schema

Vaquita Wiki
Tutor (토론 | 기여)님의 2026년 1월 15일 (목) 00:41 판 (→‎3) 요소–속성 요약 표)
(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)

AI 시대의 고전 해석 교육 모델
CCTI
데이터 구조/형식 & XML 표준 스키마


김현
Digital Curator

1. 데이터 구조 개요[편집]

1. 데이터 구조 개요[편집]

  • CCTI는 고전 한문 텍스트 해석을 진행하는 과정에서 입력/생성/편집되는 데이터를 모두 데이터베이스에 저장합니다.

※ DBMS: Microsoft SQL Server

  • 이러한 데이터를 데이터베이스에 저장할 때 적용하는 데이터의 구조와 형식을 스키마(Schema)라고 합니다.
  • CCTI의 데이터 스키마는 하나의 한문 텍스트 유닛(Text Unit)을 중심으로, AI 생성 데이터와 학습자 검토 데이터를 단일 테이블에 단계적으로 누적 저장하는 구조를 사용합니다.

1) 설계 원칙[편집]

  • 하나의 텍스트 = 하나의 레코드
  • 해석 과정의 각 단계 결과를 컬럼 단위로 분리
  • AI 생성 데이터와 학습자 검토 데이터를 명확히 구분

2) 프로젝트(project) / 데이터 테이블(table) / 데이터 레코드(record)[편집]

  • CCTI에서 프로젝트 (project)라는 용어의 의미는 특정한 목표를 갖는 하나의 한문 해석 연구 프로그램, 또는 한문 해석 수업을 의미합니다.
  • 하나의 프로젝트는 그것에 대응하는 하나의 데이터 테이블을 갖습니다.
  • 데이터 테이블 안에는 여러 개의 데이터 레코드가 존재하는데, 각각의 레코드는 하나의 한문 텍스트에 대응합니다.
  • 데이터 테이블의 이름은 프로젝트에 따라 다를 수 있지만, 레코드의 구조(Schema, 스키마)는 동일합니다.

2. 데이터베이스 레코드 구조[편집]

구분 컬럼 이름 데이터 타입 설명 비고
1. 식별 및 분류 정보 id nvarchar(40) not null 텍스트 유닛의 고유 식별자 모든 작업(편집·AI 생성·삭제)의 기준 키
category nvarchar(40) 텍스트의 분류 정보 예: 경학서, 사서, 문집, 금석문 등
AI 생성 시 참고 정보
2. 원문 데이터 (기초 입력) source_text XML 학습자가 입력한 한문 원문 <text_unit> 구조 XML
모든 AI 처리의 기본 입력
3. 표점 데이터 hanmun_punctuated XML AI가 생성한 표준 표점 한문 텍스트 학습자 검토·수정 가능
번역 생성의 기준 텍스트
4. 용어사전 데이터 glossary_draft XML AI가 자동 생성한 용어사전 초안 인명·지명·관직·개념·문법 설명 포함
glossary_reviewed XML 학습자가 검토·수정한 최종 용어사전 번역 생성의 핵심 참조 데이터
AI 제안 → 인간 판단 구조 명시
5. 번역 데이터 translation_draft XML AI가 생성한 번역 초안 표점본 + 용어사전 검토본 반영
translation_reviewed XML 학습자가 수정·확정한 최종 번역문 CCTI 학습 과정의 최종 산출물
6. 공유 및 메타 정보 infoUrl nvarchar(255) 결과물을 공유하는 Wiki 페이지 주소 프로젝트 Wiki 내 해당 문서 URL
iconUrl nvarchar(255) 관련 이미지 URL 유묵·문헌·작품 이미지 등
Wiki File URL 사용 권장
remark nvarchar(255) 텍스트에 대한 간단한 설명 또는 주석 AI 생성 시 참고 정보
curator nvarchar(40) 텍스트 유닛을 생성한 사용자 원문 입력 시 자동 입력
생성자에게 삭제 권한 부여

※ CCTI 데이터 레코드 가운데 한문 텍스트를 저장하는 컬럼은 source_text, hanmun_punctuated, glossary_draft, glossary_reviewed, translation_draft, translation_reviewed 등인데, 이 컬럼들의 데이터 형식은 모두XML입니다. (각 컬럼 데이터의 XML 형식은 아래 제시한 CCTI 표준 XML 스키마를 부분적으로 채용)

3. XML 데이터 구조[편집]

인공지능과의 소통은 평문(Plain Text)으로도 가능하지만, 정확한 지식 생산과 검토·재사용을 위해서는 구조화된 데이터가 필요합니다.

CCTI는 고전 한문 텍스트 처리에 적합한 XML 구조를 사용하며, 기본 형식은 다음 과 같습니다.

1) CCTI 표준 XML 스키마[편집]

<text_unit id="">
  <hanmun_text punctuation_scheme="raw|standard|korean_style|japanese_style">
    ...
    <annotation> .... </annotation>   <!-- 원문 주석(복수 병렬 가능): 원문에 주석이 딸린 경우 -->
  </hanmun_text>  <!-- 한문 원문(복수 병렬 가능): raw|standard|korean_style|japanese_style -->

  <translation lang="KOR|ENG|CHN|JPN" status="source|draft|reviewed|final" version="1">
    ...
  </translation>  <!-- 번역문(복수 병렬 가능): KOR|ENG|CHN|JPN -->

  <glossary status="source|draft|reviewed|final" version="1">
    <term type="Person|Place|Event|Timespan|Object|Record|ArtWork|Food|Clothing|Concept|Grammar" id="">
      <lemma>
        <hanmun>...</hanmun>
        <korean>...</korean>
        <romanization system="RR|MR|Pinyin">...</romanization> <!-- 로마자 표기(복수 병렬 가능): RR/MR/Pinyin -->
      </lemma>
      <sense scope="this_text_unit|general">
        <definition>...</definition>
        <sense_note>...</sense_note>
      </sense>
    </term> <!-- 용어(복수 병렬 가능): 건수는 텍스트 길이, 내용에 따라 변동 -->
    ...
  </glossary>

</text_unit>

2) XML 요소 설명[편집]

  • <text_unit>: 한 개 텍스트 유닛(원문·번역·용어사전)을 묶는 최상위 요소. id는 고유 식별자.
  • <hanmun_text>: 한문 원문 텍스트. punctuation_scheme 속성으로 표점 방식 지정.
  • <annotation>: 한문 주석 텍스트. annotator 속성으로 주석가 표기
  • <translation>: 번역문. lang(언어), status(단계), version(이력)으로 관리.
  • <glossary>: 용어사전. status와 version으로 AI 생성본/검토본/확정본을 구분.
  • <term>: 용어사전의 개별 항목. type(개체 유형), id(식별자) 포함.
  • <lemma>: 용어 표제 정보(한문 표기, 한국어 대응, 로마자 표기).
  • <romanization>: 로마자 표기. system 속성으로 RR/MR/Pinyin 등 표기 체계 지정(복수 병렬 가능).
  • <sense>: 의미 설명. scope로 텍스트 한정 의미/일반 의미 구분.
  • <definition>: 용어 정의
  • <sense_note>: 용어 의미 정의에 대한 보충 설명.

3) 요소–속성 요약 표[편집]

요소(Element) 속성(Attribute) 값 / 타입 설명 비고
text_unit id string 텍스트 유닛 고유 식별자 DB 기본 키와 1:1 대응
hanmun_text punctuation_scheme raw | standard | korean_style | japanese_style 표점 방식 지정 번역 생성 기준 설정
annotation annotator string 원문에 딸린 주석문 복수의 주석을 주석가 표기로 구분
translation lang KOR | ENG | CHN | JPN 번역 언어 다국어 확장 가능
status source | draft | reviewed | final 번역 단계 AI 생성본/검토본/확정본 구분
version number 번역 버전 증분 관리 권장
glossary status source | draft | reviewed | final 용어사전 단계 AI 제안 → 인간 판단 구조 명시
version number 용어사전 버전 번역과 독립적 관리
term type Person | Place | Event | Timespan | Object | Record | ArtWork | Food | Clothing | Concept | Grammar 용어 유형 개체/개념/문법 구분
id string 용어 식별자 재사용·링크 확장 가능
romanization system RR | MR | Pinyin 로마자 표기 체계 동일 lemma에 복수 병렬 기록 가능
sense scope this_text_unit | general 의미 범위 텍스트 특수 의미 구분

4) 진행 단계별 사용 요소[편집]

단계 작업 레코드 컬럼 XML 요소 주체 비고
1 텍스트 유닛 입력 / 수정 id, category, source_text, infoUrl, iconUrl, remark, curator hanmun_text[@punctuation_scheme="raw"] 학습자 학습자가 입력한 한문 원문과 메타데이터는 이후 AI 처리의 기준 입력 정보로 활용
2 표준 표점 생성 hanmun_punctuated
hanmun_text[@punctuation_scheme="standard"] AI → 학습자 검토 이후 번역 생성의 기준 텍스트
3 용어사전 초안 생성 glossary_draft glossary[@status="draft"] AI 인명·지명·관직·개념·문법 등 유형화
4 용어사전 검토/수정 및 확정 glossary_reviewed glossary[@status="reviewed"] 또는 glossary[@status="final"] 학습자 AI 제안 → 인간 판단 단계의 핵심 영역
5 번역 초안 생성 translation_draft translation[@status="draft"] AI 표점본 + 검토된 용어사전 반영
6 번역 검토/수정 및 확정 translation_reviewed translation[@status="reviewed"] 또는 translation[@status="final"] 학습자 학습자의 검토를 거친 최종번역 산출물

4. CCTI 데이터의 활용[편집]

CCTI의 운용 과정에서 축적된 한문 해석 데이터는 향후 한문 고전 용어·용례사전 편찬, 한문 텍스트 분석 심화 연구고전 한문 해석 전문 AI(Vertical Model) 개발을 위한 기반 데이터로 활용될 수 있습니다.

CCTI는 고전 한문 텍스트 해석을 진행하는 과정에서 입력/생성/편집되는 데이터를 모두 데이터베이스에 저장합니다.
이 데이터는 향후 고전 한문 해석 전문 AI(Vertical Model) 개발에 기여할 것입니다.



☞ AI 고전번역학 전문과정