CCTI Schema: 두 판 사이의 차이
편집 요약 없음 |
|||
| (같은 사용자의 중간 판 4개는 보이지 않습니다) | |||
| 1번째 줄: | 1번째 줄: | ||
{{ box | width=70% | align=center | content=AI 시대의 고전 해석 교육 모델<br/> | {{ box | width=70% | align=center | content=AI 시대의 고전 해석 교육 모델<br/> | ||
<font size=5>'''CCTI'''<br/>데이터 구조/형식 & XML 표준 스키마</font><br/> | <font size=5>'''CCTI'''<br/>데이터 구조/형식 & XML 표준 스키마</font><br/>}} | ||
}} | |||
<br/> | <br/> | ||
<html> | <html> | ||
| 21번째 줄: | 12번째 줄: | ||
</div> | </div> | ||
</html> | </html> | ||
===1. 데이터 구조 개요=== | ===1. 데이터 구조 개요=== | ||
===1. 데이터 구조 개요=== | |||
* CCTI는 고전 한문 텍스트 해석을 진행하는 과정에서 입력/생성/편집되는 데이터를 모두 데이터베이스에 저장합니다. | |||
※ DBMS: Microsoft SQL Server | |||
* 이러한 데이터를 데이터베이스에 저장할 때 적용하는 데이터의 구조와 형식을 '''스키마(Schema)'''라고 합니다. | |||
* CCTI의 데이터 스키마는 '''하나의 한문 텍스트 유닛(Text Unit)'''을 중심으로, AI 생성 데이터와 학습자 검토 데이터를 단일 테이블에 단계적으로 누적 저장하는 구조를 사용합니다. | |||
====1) 설계 원칙==== | ====1) 설계 원칙==== | ||
| 156번째 줄: | 160번째 줄: | ||
<hanmun_text punctuation_scheme="raw|standard|korean_style|japanese_style"> | <hanmun_text punctuation_scheme="raw|standard|korean_style|japanese_style"> | ||
... | ... | ||
<annotation> .... </annotation> <!-- 원문 주석(복수 병렬 가능): 원문에 주석이 딸린 경우 --> | |||
</hanmun_text> <!-- 한문 원문(복수 병렬 가능): raw|standard|korean_style|japanese_style --> | </hanmun_text> <!-- 한문 원문(복수 병렬 가능): raw|standard|korean_style|japanese_style --> | ||
| 185번째 줄: | 190번째 줄: | ||
* <text_unit>: 한 개 텍스트 유닛(원문·번역·용어사전)을 묶는 최상위 요소. id는 고유 식별자. | * <text_unit>: 한 개 텍스트 유닛(원문·번역·용어사전)을 묶는 최상위 요소. id는 고유 식별자. | ||
* <hanmun_text>: 한문 원문 텍스트. | * <hanmun_text>: 한문 원문 텍스트. punctuation_scheme 속성으로 표점 방식 지정. | ||
* <annotation>: 한문 주석 텍스트. annotator 속성으로 주석가 표기 | |||
* <translation>: 번역문. lang(언어), status(단계), version(이력)으로 관리. | * <translation>: 번역문. lang(언어), status(단계), version(이력)으로 관리. | ||
| 195번째 줄: | 202번째 줄: | ||
* <lemma>: 용어 표제 정보(한문 표기, 한국어 대응, 로마자 표기). | * <lemma>: 용어 표제 정보(한문 표기, 한국어 대응, 로마자 표기). | ||
* <romanization>: 로마자 표기. | * <romanization>: 로마자 표기. system 속성으로 RR/MR/Pinyin 등 표기 체계 지정(복수 병렬 가능). | ||
* <sense>: 의미 설명. scope로 텍스트 한정 의미/일반 의미 구분. | * <sense>: 의미 설명. scope로 텍스트 한정 의미/일반 의미 구분. | ||
| 232번째 줄: | 239번째 줄: | ||
<td>표점 방식 지정</td> | <td>표점 방식 지정</td> | ||
<td>번역 생성 기준 설정</td> | <td>번역 생성 기준 설정</td> | ||
</tr> | |||
<tr> | |||
<td><b>annotation</b></td> | |||
<td><b>annotator</b></td> | |||
<td>string</td> | |||
<td>원문에 딸린 주석문</td> | |||
<td>복수의 주석을 주석가 표기로 구분</td> | |||
</tr> | </tr> | ||
2026년 1월 15일 (목) 00:41 기준 최신판
AI 시대의 고전 해석 교육 모델
CCTI
데이터 구조/형식 & XML 표준 스키마
| 김현 Digital Curator |
1. 데이터 구조 개요[편집]
1. 데이터 구조 개요[편집]
- CCTI는 고전 한문 텍스트 해석을 진행하는 과정에서 입력/생성/편집되는 데이터를 모두 데이터베이스에 저장합니다.
※ DBMS: Microsoft SQL Server
- 이러한 데이터를 데이터베이스에 저장할 때 적용하는 데이터의 구조와 형식을 스키마(Schema)라고 합니다.
- CCTI의 데이터 스키마는 하나의 한문 텍스트 유닛(Text Unit)을 중심으로, AI 생성 데이터와 학습자 검토 데이터를 단일 테이블에 단계적으로 누적 저장하는 구조를 사용합니다.
1) 설계 원칙[편집]
- 하나의 텍스트 = 하나의 레코드
- 해석 과정의 각 단계 결과를 컬럼 단위로 분리
- AI 생성 데이터와 학습자 검토 데이터를 명확히 구분
2) 프로젝트(project) / 데이터 테이블(table) / 데이터 레코드(record)[편집]
- CCTI에서 프로젝트 (project)라는 용어의 의미는 특정한 목표를 갖는 하나의 한문 해석 연구 프로그램, 또는 한문 해석 수업을 의미합니다.
- 하나의 프로젝트는 그것에 대응하는 하나의 데이터 테이블을 갖습니다.
- 데이터 테이블 안에는 여러 개의 데이터 레코드가 존재하는데, 각각의 레코드는 하나의 한문 텍스트에 대응합니다.
- 데이터 테이블의 이름은 프로젝트에 따라 다를 수 있지만, 레코드의 구조(Schema, 스키마)는 동일합니다.
2. 데이터베이스 레코드 구조[편집]
| 구분 | 컬럼 이름 | 데이터 타입 | 설명 | 비고 |
|---|---|---|---|---|
| 1. 식별 및 분류 정보 | id | nvarchar(40) not null | 텍스트 유닛의 고유 식별자 | 모든 작업(편집·AI 생성·삭제)의 기준 키 |
| category | nvarchar(40) | 텍스트의 분류 정보 | 예: 경학서, 사서, 문집, 금석문 등 AI 생성 시 참고 정보 |
|
| 2. 원문 데이터 (기초 입력) | source_text | XML | 학습자가 입력한 한문 원문 | <text_unit> 구조 XML 모든 AI 처리의 기본 입력 |
| 3. 표점 데이터 | hanmun_punctuated | XML | AI가 생성한 표준 표점 한문 텍스트 | 학습자 검토·수정 가능 번역 생성의 기준 텍스트 |
| 4. 용어사전 데이터 | glossary_draft | XML | AI가 자동 생성한 용어사전 초안 | 인명·지명·관직·개념·문법 설명 포함 |
| glossary_reviewed | XML | 학습자가 검토·수정한 최종 용어사전 | 번역 생성의 핵심 참조 데이터 AI 제안 → 인간 판단 구조 명시 |
|
| 5. 번역 데이터 | translation_draft | XML | AI가 생성한 번역 초안 | 표점본 + 용어사전 검토본 반영 |
| translation_reviewed | XML | 학습자가 수정·확정한 최종 번역문 | CCTI 학습 과정의 최종 산출물 | |
| 6. 공유 및 메타 정보 | infoUrl | nvarchar(255) | 결과물을 공유하는 Wiki 페이지 주소 | 프로젝트 Wiki 내 해당 문서 URL |
| iconUrl | nvarchar(255) | 관련 이미지 URL | 유묵·문헌·작품 이미지 등 Wiki File URL 사용 권장 |
|
| remark | nvarchar(255) | 텍스트에 대한 간단한 설명 또는 주석 | AI 생성 시 참고 정보 | |
| curator | nvarchar(40) | 텍스트 유닛을 생성한 사용자 | 원문 입력 시 자동 입력 생성자에게 삭제 권한 부여 |
※ CCTI 데이터 레코드 가운데 한문 텍스트를 저장하는 컬럼은 source_text, hanmun_punctuated, glossary_draft, glossary_reviewed, translation_draft, translation_reviewed 등인데, 이 컬럼들의 데이터 형식은 모두XML입니다. (각 컬럼 데이터의 XML 형식은 아래 제시한 CCTI 표준 XML 스키마를 부분적으로 채용)
3. XML 데이터 구조[편집]
인공지능과의 소통은 평문(Plain Text)으로도 가능하지만, 정확한 지식 생산과 검토·재사용을 위해서는 구조화된 데이터가 필요합니다.
CCTI는 고전 한문 텍스트 처리에 적합한 XML 구조를 사용하며, 기본 형식은 다음 과 같습니다.
1) CCTI 표준 XML 스키마[편집]
<text_unit id="">
<hanmun_text punctuation_scheme="raw|standard|korean_style|japanese_style">
...
<annotation> .... </annotation> <!-- 원문 주석(복수 병렬 가능): 원문에 주석이 딸린 경우 -->
</hanmun_text> <!-- 한문 원문(복수 병렬 가능): raw|standard|korean_style|japanese_style -->
<translation lang="KOR|ENG|CHN|JPN" status="source|draft|reviewed|final" version="1">
...
</translation> <!-- 번역문(복수 병렬 가능): KOR|ENG|CHN|JPN -->
<glossary status="source|draft|reviewed|final" version="1">
<term type="Person|Place|Event|Timespan|Object|Record|ArtWork|Food|Clothing|Concept|Grammar" id="">
<lemma>
<hanmun>...</hanmun>
<korean>...</korean>
<romanization system="RR|MR|Pinyin">...</romanization> <!-- 로마자 표기(복수 병렬 가능): RR/MR/Pinyin -->
</lemma>
<sense scope="this_text_unit|general">
<definition>...</definition>
<sense_note>...</sense_note>
</sense>
</term> <!-- 용어(복수 병렬 가능): 건수는 텍스트 길이, 내용에 따라 변동 -->
...
</glossary>
</text_unit>
2) XML 요소 설명[편집]
- <text_unit>: 한 개 텍스트 유닛(원문·번역·용어사전)을 묶는 최상위 요소. id는 고유 식별자.
- <hanmun_text>: 한문 원문 텍스트. punctuation_scheme 속성으로 표점 방식 지정.
- <annotation>: 한문 주석 텍스트. annotator 속성으로 주석가 표기
- <translation>: 번역문. lang(언어), status(단계), version(이력)으로 관리.
- <glossary>: 용어사전. status와 version으로 AI 생성본/검토본/확정본을 구분.
- <term>: 용어사전의 개별 항목. type(개체 유형), id(식별자) 포함.
- <lemma>: 용어 표제 정보(한문 표기, 한국어 대응, 로마자 표기).
- <romanization>: 로마자 표기. system 속성으로 RR/MR/Pinyin 등 표기 체계 지정(복수 병렬 가능).
- <sense>: 의미 설명. scope로 텍스트 한정 의미/일반 의미 구분.
- <definition>: 용어 정의
- <sense_note>: 용어 의미 정의에 대한 보충 설명.
3) 요소–속성 요약 표[편집]
| 요소(Element) | 속성(Attribute) | 값 / 타입 | 설명 | 비고 |
|---|---|---|---|---|
| text_unit | id | string | 텍스트 유닛 고유 식별자 | DB 기본 키와 1:1 대응 |
| hanmun_text | punctuation_scheme | raw | standard | korean_style | japanese_style | 표점 방식 지정 | 번역 생성 기준 설정 |
| annotation | annotator | string | 원문에 딸린 주석문 | 복수의 주석을 주석가 표기로 구분 |
| translation | lang | KOR | ENG | CHN | JPN | 번역 언어 | 다국어 확장 가능 |
| status | source | draft | reviewed | final | 번역 단계 | AI 생성본/검토본/확정본 구분 | |
| version | number | 번역 버전 | 증분 관리 권장 | |
| glossary | status | source | draft | reviewed | final | 용어사전 단계 | AI 제안 → 인간 판단 구조 명시 |
| version | number | 용어사전 버전 | 번역과 독립적 관리 | |
| term | type | Person | Place | Event | Timespan | Object | Record | ArtWork | Food | Clothing | Concept | Grammar | 용어 유형 | 개체/개념/문법 구분 |
| id | string | 용어 식별자 | 재사용·링크 확장 가능 | |
| romanization | system | RR | MR | Pinyin | 로마자 표기 체계 | 동일 lemma에 복수 병렬 기록 가능 |
| sense | scope | this_text_unit | general | 의미 범위 | 텍스트 특수 의미 구분 |
4) 진행 단계별 사용 요소[편집]
| 단계 | 작업 | 레코드 컬럼 | XML 요소 | 주체 | 비고 |
|---|---|---|---|---|---|
| 1 | 텍스트 유닛 입력 / 수정 | id, category, source_text, infoUrl, iconUrl, remark, curator | hanmun_text[@punctuation_scheme="raw"] | 학습자 | 학습자가 입력한 한문 원문과 메타데이터는 이후 AI 처리의 기준 입력 정보로 활용 |
| 2 | 표준 표점 생성 |
hanmun_punctuated |
hanmun_text[@punctuation_scheme="standard"] | AI → 학습자 검토 | 이후 번역 생성의 기준 텍스트 |
| 3 | 용어사전 초안 생성 | glossary_draft | glossary[@status="draft"] | AI | 인명·지명·관직·개념·문법 등 유형화 |
| 4 | 용어사전 검토/수정 및 확정 | glossary_reviewed | glossary[@status="reviewed"] 또는 glossary[@status="final"] | 학습자 | AI 제안 → 인간 판단 단계의 핵심 영역 |
| 5 | 번역 초안 생성 | translation_draft | translation[@status="draft"] | AI | 표점본 + 검토된 용어사전 반영 |
| 6 | 번역 검토/수정 및 확정 | translation_reviewed | translation[@status="reviewed"] 또는 translation[@status="final"] | 학습자 | 학습자의 검토를 거친 최종번역 산출물 |
4. CCTI 데이터의 활용[편집]
CCTI의 운용 과정에서 축적된 한문 해석 데이터는 향후 한문 고전 용어·용례사전 편찬, 한문 텍스트 분석 심화 연구 및 고전 한문 해석 전문 AI(Vertical Model) 개발을 위한 기반 데이터로 활용될 수 있습니다.
CCTI는 고전 한문 텍스트 해석을 진행하는 과정에서 입력/생성/편집되는 데이터를 모두 데이터베이스에 저장합니다.
이 데이터는 향후 고전 한문 해석 전문 AI(Vertical Model) 개발에 기여할 것입니다.