CCTI Schema: 두 판 사이의 차이
태그: 되돌려진 기여 |
태그: 수동 되돌리기 |
||
| 5번째 줄: | 5번째 줄: | ||
{{box | width=100% | align=left | content = | {{box | width=100% | align=left | content = | ||
<pre> | |||
<text_unit id=""> | <text_unit id=""> | ||
<hanmun_text punctuation_scheme="raw|standard|korean_style|japanese_style"> | <hanmun_text punctuation_scheme="raw|standard|korean_style|japanese_style"> | ||
| 32번째 줄: | 33번째 줄: | ||
</glossary> | </glossary> | ||
</text_unit> | </text_unit> | ||
</pre> | |||
}} | }} | ||
2026년 1월 8일 (목) 01:06 판
Ⅲ-2. XML 데이터 구조
1) CCTI 표준 XML 스키마
인공지능과의 소통은 평문(Plain Text)으로도 가능하지만, 정확한 지식 생산과 검토·재사용을 위해서는 구조화된 데이터가 필요합니다. CCTI는 고전 한문 텍스트 처리에 적합한 XML 구조를 사용하며, 기본 형식은 다음과 같습니다.
<text_unit id="">
<hanmun_text punctuation_scheme="raw|standard|korean_style|japanese_style">
...
</hanmun_text>
<translation lang="KOR|ENG|CHN|JPN" status="source|draft|reviewed|final" version="1">
...
</translation>
<glossary status="source|draft|reviewed|final" version="1">
<term type="Person|Place|Event|Timespan|Object|Record|ArtWork|Food|Clothing|Concept|Grammar" id="">
<lemma>
<hanmun>...</hanmun>
<korean>...</korean>
<!-- 로마자 표기(복수 병렬 가능): RR/MR/Pinyin -->
<romanization system="RR|MR|Pinyin">...</romanization>
</lemma>
<sense scope="this_text_unit|general">
<definition>...</definition>
<sense_note>...</sense_note>
</sense>
</term>
...
</glossary>
</text_unit>
2) XML 요소 설명
- <text_unit>: 한 개 텍스트 유닛(원문·번역·용어사전)을 묶는 최상위 요소. id는 고유 식별자.
- <hanmun_text>: 한문 원문 텍스트. punctuation_scheme로 표점 방식 지정.
- <translation>: 번역문. lang(언어), status(단계), version(이력)으로 관리.
- <glossary>: 용어사전. status와 version으로 AI 생성본/검토본/확정본을 구분.
- <term>: 용어사전의 개별 항목. type(개체 유형), id(식별자) 포함.
- <lemma>: 용어 표제 정보(한문 표기, 한국어 대응, 로마자 표기).
- <romanization>: 로마자 표기. system으로 RR/MR/Pinyin 등 표기 체계 지정(복수 병렬 가능).
- <sense>: 의미 설명. scope로 텍스트 한정 의미/일반 의미 구분.
- <definition>: 용어 정의
- <sense_note>: 용어 의미 정의에 대한 보충 설명.
3) 요소–속성 요약 표
| 요소(Element) | 속성(Attribute) | 값 / 타입 | 설명 | 비고 |
|---|---|---|---|---|
| text_unit | id | string | 텍스트 유닛 고유 식별자 | DB 기본 키와 1:1 대응 |
| hanmun_text | punctuation_scheme | raw | standard | korean_style | japanese_style | 표점 방식 지정 | 번역 생성 기준 설정 |
| translation | lang | KOR | ENG | CHN | JPN | 번역 언어 | 다국어 확장 가능 |
| status | source | draft | reviewed | final | 번역 단계 | AI 생성본/검토본/확정본 구분 | |
| version | number | 번역 버전 | 증분 관리 권장 | |
| glossary | status | source | draft | reviewed | final | 용어사전 단계 | AI 제안 → 인간 판단 구조 명시 |
| version | number | 용어사전 버전 | 번역과 독립적 관리 | |
| term | type | Person | Place | Event | Timespan | Object | Record | ArtWork | Food | Clothing | Concept | Grammar | 용어 유형 | 개체/개념/문법 구분 |
| id | string | 용어 식별자 | 재사용·링크 확장 가능 | |
| romanization | system | RR | MR | Pinyin | 로마자 표기 체계 | 동일 lemma에 복수 병렬 기록 가능 |
| sense | scope | this_text_unit | general | 의미 범위 | 텍스트 특수 의미 구분 |