본문으로 이동
주 메뉴
주 메뉴
사이드바로 이동
숨기기
둘러보기
대문
최근 바뀜
임의의 문서로
미디어위키 도움말
Vaquita Wiki
검색
검색
로그인
개인 도구
로그인
로그아웃한 편집자를 위한 문서
더 알아보기
기여
토론
디지털인문학 2025 가을호 인터뷰
편집하기 (부분)
문서
토론
한국어
읽기
편집
역사 보기
도구
도구
사이드바로 이동
숨기기
동작
읽기
편집
역사 보기
일반
여기를 가리키는 문서
가리키는 글의 최근 바뀜
특수 문서 목록
문서 정보
경고:
로그인하지 않았습니다. 편집을 하면 IP 주소가 공개되게 됩니다.
로그인
하거나
계정을 생성하면
편집자가 사용자 이름으로 기록되고, 다른 장점도 있습니다.
스팸 방지 검사입니다. 이것을 입력하지
마세요
!
==II. 주요 연구 업적과 방법론== ===질문 04. 대표 업적: 『조선왕조실록』 DB CD-ROM 개발=== 【허】 이제 두 번째 파트로 넘어가겠습니다. 주요 연구 업적과 방법론에 관한 내용입니다. 앞서 언급하신 대표적 업적 가운데 하나인 조선왕조실록 DB CD-ROM 개발에 대해 여쭙고자 합니다. 이 질문도 난관을 묻는 질문이라 조심스럽긴 합니다만, 조선왕조실록 DB CD-ROM 프로젝트 과정에서 기술적 혹은 인문학적 측면에서 가장 큰 어려움이 무엇이었는지 말씀해 주시면 좋겠습니다. 혹은 난관보다는, 이 성과가 이후 한국학 자료 디지털화에 남긴 유산이 무엇인지 말씀해 주셔도 좋습니다. 언론에서도 많이 다뤄진 이야기이긴 하지만, 이번 인터뷰를 계기로 다시 한번 들려주시면 감사하겠습니다. 【김】 제가 제미나이(Gemini)에게 ‘조선왕조실록 CD-ROM의 사회적 기여’가 무엇이냐고 물어본 적이 있는데, 이렇게 답하더군요: 1) 인문학 정보화의 효시 및 연구 방법의 혁신, <br/> 2) 역사 지식의 대중화 및 활용 확대, <br/> 3) 후속 디지털 인문학 프로젝트의 기술적 기반 마련<br/> 여러 사람이 언급했고 인터넷에도 널리 퍼진 이야기이니, LLM이 저렇게 답하는 것도 자연스러운 일이겠지요. 그래서 오늘 이 자리에서는 전에는 하지 않았던 이야기를 해 보려고 합니다. 저에게 가장 먼저 떠오르는 생각은, “조선왕조실록 CD-ROM의 최대 수혜자는 바로 나 자신이었다”는 점입니다. 제가 제 인생의 첫 번째 DH(Digital Humanities) 프로젝트로 실록 CD-ROM을 선택한 것은, 조선왕조실록의 내용을 깊이 이해해서라기보다는 그 자료가 한국 인문학 정보화에 가장 큰 사회적 임팩트를 줄 수 있는 자원이라고 판단했기 때문입니다. 정작 조선왕조실록에 대한 깊은 이해는 CD-ROM을 만드는 과정에서 얻게 되었습니다. 데이터베이스 구조를 설계하고, 한자 코드와 서체를 개발하고, 풀 텍스트 검색 기능을 구현하고, 번역서의 주석을 모아 용어사전을 만드는 과정에서 실록의 이곳저곳을 들여다볼 수밖에 없었습니다. 그러다 흥미로운 기사를 만나면 그 전후 맥락을 파악하기 위해 본문을 한참 읽기도 했습니다. 또 하나 기억나는 일은, 모든 기사에 대해 ‘한 줄 요약문’을 만드는 작업이었습니다. 이를 위해 당시 전국 대학의 사학·한문학 전공 대학원생들에게 왕대별 실록 텍스트를 보내 요약 작성을 의뢰했고, 결과물이 도착하면 제가 직접 일일이 검수했습니다. 그래서 저는 지금도 조선왕조실록 CD-ROM이 “자료의 내용을 아는 사람이 만든 데이터베이스”, 그리고 “콘텐츠를 공부하면서 만든 데이터베이스”라고 자부합니다. 그 공부의 과정에서 얻은 가장 중요한 소득은 조선시대 역사 지식 자체보다도, “역사서의 기록은 사관(史官)이 사실을 선택해 구성한 하나의 스토리텔링”이라는 이해, 그리고 “그 스토리 속 사실적 소재들을 다시 다른 관점의 이야기로 재구성하는 것이 인문학 연구”라는 통찰을 얻게 된 점입니다. 【허】 오늘 처음 말씀하신 관점이라고 하셨는데, 정말 함축적이고 의미 깊은 말씀입니다. 최대 수혜자가 텍스트를 직접 읽고 작업한 ‘만든 사람 자신’이라는 점, 그리고 그 관점은 디지털 트랜스포메이션 작업에서 대단히 중요한 메시지를 담고 있다고 생각합니다. 후학들도 이런 말씀을 꼭 새겨들면 좋겠습니다. ===질문 05. 기술적 도전과 해결책 + 핵심 철학: 백과사전적 아카이브 · 시맨틱 데이터 · 디지털 큐레이션=== 【허】 선생님의 그간 작업을 살펴보면, 선생님의 지향점과 철학을 세 개의 키워드로 정리할 수 있을 것 같습니다. * 첫째, 백과사전적 아카이브(encyclopedic archive) * 둘째, 시맨틱 데이터(semantic data) * 셋째, 디지털 큐레이션(digital curation) 얼마 전 AI 시대 인문학 연구자의 역할을 여쭤보았을 때 선생님께서 ‘인문지식의 디지털 큐레이터’를 말씀하셨는데, 이 용어 역시 세 키워드와 밀접한 관련이 있는 것 같습니다. 또한 앞서 ‘구축’이 아니라 ‘편찬’이라는 용어를 강조하신 이유도 이 키워드들과 연관되어 있을 것 같고요. 이 세 가지 키워드가 어떻게 유기적으로 연결되어 있는지 말씀을 듣고 싶습니다. 【김】 디지털 인문학이라는 이름으로 할 수 있는 일은 많지만, 나 한 사람이 연구자이자 교육자로서 할 수 있는 일에는 분명 한계가 있습니다. 그렇기 때문에 제가 가장 잘할 수 있고, 설득력 있게 공감을 얻어낼 수 있고, 전문성을 가지고 학생들을 지도하며 학계에 기여할 수 있는 분야를 제 스스로 정리한 것이 선생님께서 말씀하신 바로 그 세 가지입니다. ‘백과사전적 아카이브’(Encyve)는 백과사전(encyclopedia)과 아카이브(archive)의 합성어입니다. 이 개념은 제가 한국학중앙연구원에서 경험한 문제의식에서 나온 말입니다. 20여 년 전 정보센터 소장으로 근무할 때 제 업무는 크게 두 가지였습니다: ‘장서각 아카이브의 고문서 자료 디지털화’와 ‘『한국민족문화대백과사전』과 같은 디지털 백과사전 편찬’. 이 두 일은 각각의 영역에서는 큰 문제 없이 잘 수행되고 있었습니다. 장서각의 고문헌과 『고문서집성』 영인 자료는 온라인 접근이 가능해졌고, 민족문화대백과사전도 온라인 검색이 편리한 체계로 구축되었습니다. 그런데 일을 하다 보니, 그동안 미처 보지 못했던 중대한 문제가 보이기 시작했습니다. 두 시스템 사이에 단 하나의 연결고리도 없다는 점이었습니다. 장서각에 수많은 문헌들이 있는데 그 문헌의 저자, 발문 쓴 사람, 편지를 주고받은 사람 등등에 대한 정보를 민족문화대백과사전에서 찾을 수 있는 것이 꽤 있어요. 민족문화대백과사전 안에도 우리나라에서 간행된 문헌들이 항목화돼 있거나 본문 속에서 언급된 경우가 많지요. 그런데 그러한 정보를 상호 참조할 수 있는 장치가 전혀 없는 겁니다. 기술자들은 “그거 왜 안 해요?”라고 말합니다. 하지만 저는 그 일을 깊게 들여다보면서, 이것이 간단한 기술적 문제가 아니라는 점을 깨달았습니다. 두 시스템은 독립된 조직에서, 철저히 분업화된 체계 속에서 만들어졌습니다. 따라서 결과물도 서로 독립적일 수밖에 없었고, 두 체제를 연결하려면 조직의 구조와 업무 방식부터 바뀌어야 했습니다. 이 문제를 인식한 이후 저는 이렇게 생각하게 되었습니다. * '''자료(data)와 지식(knowledge)을 구분하는 기존의 관점은 한계가 있다.''' * '''이를 통합적으로 이해하고 다룰 수 있는 새로운 인식 전환이 필요하다.''' * '''그 일을 수행할 융합형 인재 양성이 반드시 필요하다.''' 한국학중앙연구원 대학원에 인문정보학 전공을 개설한 것과 ‘백과사전적 아카이브’라는 개념을 만든 것은 사실상 한 문제의식에서 시작된 같은 흐름의 일입니다. ‘시맨틱 데이터’는 ‘백과사전적 아카이브’ 안에서 지식과 자료의 조각들이 서로 의미있게 연결될 수 있도록 하는 데이터의 기술 형식이고, ‘디지털 큐레이션’ 지식을 탐구하는 과정에서 의미있는 지식 요소를 발견하고 그것을 시맨틱 데이터로 기술하여 백과사전적 아카이브에 담아내는 행위를 말합니다. 백과사전적 아카이브는 장서각과 민백을 합치려는 시도에서 탄생한 개념이지만, 좀 더 의미를 부여한다면, 지식과 자료를 지식을 이원화하고, 연구와 큐레이션을 분업화한 현대 인문학의 문제점을 디지털 세계에서 극복하려는 ‘디지털 인문학’의 일환이라고 이야기 할 수 있을 것입니다. 시맨틱 데이터는 이러한 취지의 디지털 인문학을 구현하는 기술적 프레임워크이고, 디지털 큐레이션은 그 프레임워크 위에서 인문지식 탐구하는 실천적인 학술활동이라고 할 수 있겠지요. 【허】 세 키워드 간의 관계를 마지막에 선생님께서 간명하게 정리해 주셨습니다. 더 나아가, 이러한 요소들은 아까 말씀하신 디지털 트랜스포메이션의 내용과도 연결되는 것 같습니다. 분리되어 있는 요소들을 통합하고, 지식과 지식인의 상을 유기적 관점에서 재구성해야 한다는 말씀으로 이해됩니다. ===질문 06. 기술적 도전과 해결책 + 핵심 철학: 시맨틱 데이터와 인공지능=== 【허】 이 질문과 관련해서 조금 더 여쭙겠습니다. 한국학중앙연구원의 김병준 선생님께서 주신 질문이기도 한데요. LLM, 즉 거대 언어 모델이 등장한 이후 시맨틱 데이터, 그래프 데이터, 그래프 DB가 LLM의 ‘환각(hallucination)’을 제어하는 수단으로 주목받고 있습니다. 이런 맥락에서 시맨틱 데이터가 학습 데이터로서 갖는 의미가 무엇인지 말씀해 주시면 좋겠습니다. 【김】 제가 시맨틱 데이터 편찬 기술을 디지털 인문학 교육 프로그램의 주요 과정으로 채택한 이유는, 시맨틱 데이터가 자연어로 표현된 자유로운 형식의 인문학적 지식을 명시적(explicit) 데이터로 구조화하는 데 적합한 방식이라고 판단했기 때문입니다. 자연어 텍스트에 비해 표현의 자유로움은 줄어들지만, 정확한 의미 전달력은 훨씬 강화되는 측면이 있습니다. 따라서 시맨틱 데이터가 인공지능의 학습 데이터로 사용된다면, 자연어 텍스트보다 정확한 지식을 생성하는 데 도움을 줄 것이고, 원천 지식의 모호성에서 비롯되는 환각(hallucination) 현상을 줄이는 데도 기여할 것입니다. 그런데 제가 시맨틱 데이터의 ‘인공지능적 활용’에 대해 더욱 중요하게 생각하는 것은, ChatGPT나 제미나이 같은 LLM 자체의 학습 데이터로서의 기능보다 오히려, 일정한 범위의 인문학적 지식(예: 한국학, 한국 역사·전통문화) 을 안정적으로 제공하고, 더 나아가 AI 교사(AI tutor)로서 교육 기능까지 수행할 수 있는 ‘버티컬 AI(Vertical AI)’의 구현입니다. 요즘 LLM이 워낙 화제가 되다 보니, 많은 사람들이 ‘인공지능은 곧 LLM’이라고 생각합니다. 물론 LLM은 가장 영향력 있고 대중적인 인공지능이며, 특히 인문학 분야에서는 그 역할이 매우 큽니다. LLM이 곧 인공지능이라고 생각하는 사람들은 이러한 파운데이션 모델이 장차 모든 지식과 문화적인 활동 영역을 다 지원해 줄 것으로 생각하지만, 실제로 그러한 일은 각 분야에서 전문성을 강화하는 버티컬 AI가 만들어지고, 그것이 그 파운데이션 모델 위에서 기능하게 되었을 때 가능해질 일이라고 할 수 있지요. 파운데이션 모델의 역할이라고 하는 건 그야말로 인간 두뇌의 사고 방식을 흉내내는 것이지요. 한 인간이 많은 경험을 쌓고 많은 사람을 접하게 되게 되면 자연스럽게 말을 잘하게 되고 아는 것도 많아지듯이, 방대한 데이터를 학습해서 유창한 언어 능력과 종합적인 추론 능력을 습득하고, 그럴듯한 박식함을 자랑할 수 있는 수준에 도달한 것이 것이 파운데이션 모델 AI라고 할 수 있습니다. 반면에, 그렇게 모든 분야에서 박식하지는 않다 하더라도 일정한 범위의 영역에서 체계적으로 정리된 지식을 차분하게 배워가면, 그 방면에서 신뢰할 수 있는 전문가로 인정받을 수 있는데, 그런 전문가의 영역이 버티컬 모델이라고 할 수 있는 거죠. 버티컬 모델은 독립적으로 작동하는 하는 것이 아니고, 언어적 소통 능력은 파운데이션 모델에 의존하고 자기 분야 전문적인 지식의 신뢰도를 강화하는 역할을 전담합니다. 제가 학생들과 같이 추구해 온 그 한국학 분야의 백과사전적 아카이브, 시맨틱 데이터 그리고 그것을 편찬하는 디지털 큐레이션의 성과들은 파운데이션 모델의 학습 데이터로 쓰일 뿐 아니라, 앞으로 세계 각 지역의 한국 문화 수요자들이 한국학을 배우고 이해하는 데 도움을 주는 ‘한국학 전문 버티컬 AI’로 발전하리라 기대하고 있습니다. 【허】 네, 알겠습니다. 그 차이를 분명하게 설명해 주셔서 잘 이해가 되었습니다.
요약:
Vaquita Wiki에서의 모든 기여는 다른 기여자가 편집, 수정, 삭제할 수 있다는 점을 유의해 주세요. 만약 여기에 동의하지 않는다면, 문서를 저장하지 말아 주세요.
또한, 직접 작성했거나 퍼블릭 도메인과 같은 자유 문서에서 가져왔다는 것을 보증해야 합니다(자세한 사항은
Vaquita Wiki:저작권
문서를 보세요).
저작권이 있는 내용을 허가 없이 저장하지 마세요!
취소
편집 도움말
(새 창에서 열림)
내용 폭 제한 전환