CCTI Schema: 두 판 사이의 차이
잔글 Tutor님이 CCTI Manual 3-2 문서를 넘겨주기를 만들지 않고 CCTI Manual Schema 문서로 이동했습니다: 상위 목차 변경 |
|||
(차이 없음)
| |||
2026년 1월 8일 (목) 03:39 판
Ⅲ. 데이터 형식
CCTI는 고전 한문 텍스트 해석을 진행하는 과정에서 입력/생성/편집되는 데이터를 모두 데이터베이스에 저장합니다.
※ DBMS: Microsoft SQL Server
이러한 데이터를 데이터베이스에 저장할 때 적용하는 데이터 형식의 '구조(Schema, 스키마)를 데이터 형식이라고 합니다.
CCTI의 데이터 스키마는 하나의 한문 텍스트 유닛(Text Unit)을 중심으로, AI 생성 데이터와 학습자 검토 데이터를 단일 테이블에 단계적으로 누적 저장하는 구조를 사용합니다.
Ⅲ-1. 데이터 구조 개요
1) 설계 원칙
- 하나의 텍스트 = 하나의 레코드
- 해석 과정의 각 단계 결과를 컬럼 단위로 분리
- AI 생성 데이터와 학습자 검토 데이터를 명확히 구분
2) 프로젝트(project) / 데이터 테이블(table) / 데이터 레코드(record)
- CCTI에서 프로젝트 (project)라는 용어의 의미는 특정한 목표를 갖는 하나의 한문 해석 연구 프로그램, 또는 한문 해석 수업을 의미합니다.
- 하나의 프로젝트는 그것에 대응하는 하나의 데이터 테이블을 갖습니다.
- 데이터 테이블 안에는 여러 개의 데이터 레코드가 존재하는데, 각각의 레코드는 하나의 한문 텍스트에 대응합니다.
- 데이터 테이블의 이름은 프로젝트에 따라 다를 수 있지만, 레코드의 구조(Schema, 스키마)는 동일합니다.
Ⅲ-2. 데이터베이스 레코드 구조
| 구분 | 컬럼 이름 | 데이터 타입 | 설명 | 비고 |
|---|---|---|---|---|
| 1. 식별 및 분류 정보 | id | nvarchar(40) not null | 텍스트 유닛의 고유 식별자 | 모든 작업(편집·AI 생성·삭제)의 기준 키 |
| category | nvarchar(40) | 텍스트의 분류 정보 | 예: 경학서, 사서, 문집, 금석문 등 AI 생성 시 참고 정보 |
|
| 2. 원문 데이터 (기초 입력) | source_text | XML | 학습자가 입력한 한문 원문 | <text_unit> 구조 XML 모든 AI 처리의 기본 입력 |
| 3. 표점 데이터 | hanmun_punctuated | XML | AI가 생성한 표준 표점 한문 텍스트 | 학습자 검토·수정 가능 번역 생성의 기준 텍스트 |
| 4. 용어사전 데이터 | glossary_draft | XML | AI가 자동 생성한 용어사전 초안 | 인명·지명·관직·개념·문법 설명 포함 |
| glossary_reviewed | XML | 학습자가 검토·수정한 최종 용어사전 | 번역 생성의 핵심 참조 데이터 AI 제안 → 인간 판단 구조 명시 |
|
| 5. 번역 데이터 | translation_draft | XML | AI가 생성한 번역 초안 | 표점본 + 용어사전 검토본 반영 |
| translation_reviewed | XML | 학습자가 수정·확정한 최종 번역문 | CCTI 학습 과정의 최종 산출물 | |
| 6. 공유 및 메타 정보 | infoUrl | nvarchar(255) | 결과물을 공유하는 Wiki 페이지 주소 | 프로젝트 Wiki 내 해당 문서 URL |
| iconUrl | nvarchar(255) | 관련 이미지 URL | 유묵·문헌·작품 이미지 등 Wiki File URL 사용 권장 |
|
| remark | nvarchar(255) | 텍스트에 대한 간단한 설명 또는 주석 | AI 생성 시 참고 정보 | |
| curator | nvarchar(40) | 텍스트 유닛을 생성한 사용자 | 원문 입력 시 자동 입력 생성자에게 삭제 권한 부여 |
※ CCTI 데이터 레코드 가운데 한문 텍스트를 저장하는 컬럼은 source_text, hanmun_punctuated, glossary_draft, glossary_reviewed, translation_draft, translation_reviewed 등인데, 이 컬럼들의 데이터 형식은 모두XML입니다. (각 컬럼 데이터의 XML 형식은 아래 제시한 CCTI 표준 XML 스키마를 부분적으로 채용)
Ⅲ-3. XML 데이터 구조
인공지능과의 소통은 평문(Plain Text)으로도 가능하지만, 정확한 지식 생산과 검토·재사용을 위해서는 구조화된 데이터가 필요합니다.
CCTI는 고전 한문 텍스트 처리에 적합한 XML 구조를 사용하며, 기본 형식은 다음 과 같습니다.
1) CCTI 표준 XML 스키마
<text_unit id="">
<hanmun_text punctuation_scheme="raw|standard|korean_style|japanese_style">
...
</hanmun_text> <!-- 한문 원문(복수 병렬 가능): raw|standard|korean_style|japanese_style -->
<translation lang="KOR|ENG|CHN|JPN" status="source|draft|reviewed|final" version="1">
...
</translation> <!-- 번역문(복수 병렬 가능): KOR|ENG|CHN|JPN -->
<glossary status="source|draft|reviewed|final" version="1">
<term type="Person|Place|Event|Timespan|Object|Record|ArtWork|Food|Clothing|Concept|Grammar" id="">
<lemma>
<hanmun>...</hanmun>
<korean>...</korean>
<romanization system="RR|MR|Pinyin">...</romanization> <!-- 로마자 표기(복수 병렬 가능): RR/MR/Pinyin -->
</lemma>
<sense scope="this_text_unit|general">
<definition>...</definition>
<sense_note>...</sense_note>
</sense>
</term>
...
</glossary>
</text_unit>
2) XML 요소 설명
- <text_unit>: 한 개 텍스트 유닛(원문·번역·용어사전)을 묶는 최상위 요소. id는 고유 식별자.
- <hanmun_text>: 한문 원문 텍스트. punctuation_scheme로 표점 방식 지정.
- <translation>: 번역문. lang(언어), status(단계), version(이력)으로 관리.
- <glossary>: 용어사전. status와 version으로 AI 생성본/검토본/확정본을 구분.
- <term>: 용어사전의 개별 항목. type(개체 유형), id(식별자) 포함.
- <lemma>: 용어 표제 정보(한문 표기, 한국어 대응, 로마자 표기).
- <romanization>: 로마자 표기. system으로 RR/MR/Pinyin 등 표기 체계 지정(복수 병렬 가능).
- <sense>: 의미 설명. scope로 텍스트 한정 의미/일반 의미 구분.
- <definition>: 용어 정의
- <sense_note>: 용어 의미 정의에 대한 보충 설명.
3) 요소–속성 요약 표
| 요소(Element) | 속성(Attribute) | 값 / 타입 | 설명 | 비고 |
|---|---|---|---|---|
| text_unit | id | string | 텍스트 유닛 고유 식별자 | DB 기본 키와 1:1 대응 |
| hanmun_text | punctuation_scheme | raw | standard | korean_style | japanese_style | 표점 방식 지정 | 번역 생성 기준 설정 |
| translation | lang | KOR | ENG | CHN | JPN | 번역 언어 | 다국어 확장 가능 |
| status | source | draft | reviewed | final | 번역 단계 | AI 생성본/검토본/확정본 구분 | |
| version | number | 번역 버전 | 증분 관리 권장 | |
| glossary | status | source | draft | reviewed | final | 용어사전 단계 | AI 제안 → 인간 판단 구조 명시 |
| version | number | 용어사전 버전 | 번역과 독립적 관리 | |
| term | type | Person | Place | Event | Timespan | Object | Record | ArtWork | Food | Clothing | Concept | Grammar | 용어 유형 | 개체/개념/문법 구분 |
| id | string | 용어 식별자 | 재사용·링크 확장 가능 | |
| romanization | system | RR | MR | Pinyin | 로마자 표기 체계 | 동일 lemma에 복수 병렬 기록 가능 |
| sense | scope | this_text_unit | general | 의미 범위 | 텍스트 특수 의미 구분 |
4) 진행 단계별 사용 요소
| 단계 | 작업 | 레코드 컬럼 | XML 요소 | 주체 | 비고 |
|---|---|---|---|---|---|
| 1 | 텍스트 유닛 입력 / 수정 | id, category, source_text, infoUrl, iconUrl, remark, curator | hanmun_text[@punctuation_scheme="raw"] | 학습자 | 학습자가 입력한 한문 원문과 메타데이터는 이후 AI 처리의 기준 입력 정보로 활용 |
| 2 | 표준 표점 생성 |
hanmun_punctuated |
hanmun_text[@punctuation_scheme="standard"] | AI → 학습자 검토 | 이후 번역 생성의 기준 텍스트 |
| 3 | 용어사전 초안 생성 | glossary_draft | glossary[@status="draft"] | AI | 인명·지명·관직·개념·문법 등 유형화 |
| 4 | 용어사전 검토/수정 및 확정 | glossary_reviewed | glossary[@status="reviewed"] 또는 glossary[@status="final"] | 학습자 | AI 제안 → 인간 판단 단계의 핵심 영역 |
| 5 | 번역 초안 생성 | translation_draft | translation[@status="draft"] | AI | 표점본 + 검토된 용어사전 반영 |
| 6 | 번역 검토/수정 및 확정 | translation_reviewed | translation[@status="reviewed"] 또는 translation[@status="final"] | 학습자 | 학습자의 검토를 거친 최종번역 산출물 |