標準國語大辭典 XML 데이터 포맷
本 文書는 《標準國語大辭典》 公式 웹사이트에서 ‘辭典 내려받기’ 機能으로 얻을 수 있는 XML 데이터의 포맷을 解說한다. 公式 웹사이트에 올라온 Open API 文書에도 槪略的 說明이 있긴 하지만, 具體的으로 각 項目이 무엇을 뜻하는지 例示가 없어 와닿기 어렵기 때문에 解說을 따로 쓰게 되었다.
어째서인지 맨 바깥은 RSS 포맷을 따르고 있지만, <item>
안쪽으로는 獨自的인 포맷으로 되어 있다. 하나의 標題語가 하나의 <item>
要素로 表現되고 있고, 그보다 바깥 데이터는 別 情報가 없으므로, <item>
부터 다룬다.
<item>
標題語를 담는 껍데기.
바로 안쪽에는 <target_code>
要素와 <word_info>
要素만 存在하며, 實質的인 內容은 모두 <word_info>
에 들어있다.
1. <target_code>
標題語의 固有番號.
<link_target_code>
要素가 다른 標題語를 이러한 固有番號로 가리킨다.
2. <word_info>
標題語에 달린 모든 情報를 묶는 껍데기.
2-a. <word>
標題語와 同綴異義語(homographs) 區別用 어깨 番號[1].
마지막에 나오는 어깨番號를 除外하고, 標題語는 以下의 글字들로 이뤄진다.
- 한글: 漢字語나 外來語도 모두 한글로 적는다(例: 崩壞 → 【붕괴】, supermarket → 【슈퍼마켓】). 慣用的으로 로마字로 적는 頭文字 略語나 아라비아 數字로 쓰이는 것도 原則에 따라 한글로만 쓰인다(例: PD → 【피디】, 6·25 戰爭 → 【육이오^전쟁】).
- 붙임標(
-
, U+0020 HYPHEN-MINUS): 依存形態素가 結合되는 標題語의 처음이나 마지막에 나타난다(例: 【대-21】〔對〕, 【-이다21】). 또는, 複合語의 成分을 나누어 보여준다(例: 【바닷-가】, 【극-사실주의】, 【아이스-크림】). 但, 外來語는 原語에서 複合語였어도 原語上의 成分 各各이 韓國語 內에서까지 個別的으로 外來語로 남아 있지 않다면 나누어 보여주지는 않는다(例: rendez-vous → 【랑데부】). - 空白 文字(
- 삿갓標(
^
, U+005E CIRCUMFLEX ACCENT): 붙여 쓰기를 許容하는 띄어쓰기를 나타낸다(例: 【바다^지도】, 【수행^평가】). - 옛한글 아래아(
ㆍ
, U+318D HANGUL LETTER ARAEA): 유니코드 포인트로 옛한글 아래아를 誤用하고 있으나, 아무튼 實際 가리키는 바는 가운뎃點(interpunct)이다(例: 【독일ㆍ오스트리아^전쟁】). - 標題語의 構成 單位가 俗談이거나 慣用句인 境遇(
<word_unit>속담</word_unit>
또는<word_unit>관용구</word_unit>
)에 限해 다음 文字도 나타난다:- 括弧 雙(
(
–)
, U+0028 LEFT PARENTHESIS, U+0029 RIGHT PARENTHESIS): 省略되기도 하는 部分은 括弧 안에 감싼다(例: 【과실 망신은 모과가 (다) 시킨다】). 이 때, 여는 括弧 바로 앞의 띄어쓰기와 닫는 括弧 바로 뒤의 띄어쓰기는 省略되지 않았을 때의 띄어쓰기를 나타낸다(例: 【시(를) 매기다】 → “시 매기다” 또는 “시를 매기다”). 또한, 括弧 안에는 여러 다르게 쓰기도 하는 代替語가 빗금(/
, U+002F SOLIDUS)을 사이에 두고 羅列되기도 한다(例: 【곁가마가 (더/먼저) 끓는다】). - 大括弧 雙(
[
–]
, U+005B LEFT SQUARE BRACKET, U+005D RIGHT SQUARE BRACKET): 바로 앞에 나오는 말을 다르게 쓰기도 하는 境遇, 바로 뒤에 代替語를 大括弧로 감싸 보여준다. 代替語가 둘 以上이면 代替語들을 빗금(/
, U+002F SOLIDUS)을 사이에 두고 羅列한다(例: 【종로에서 뺨 맞고 한강에서[빙고에서/한강에 가서/행랑 뒤에서] 눈 흘긴다】). 하지만 아주 가끔은 表記法이 흔들려서 省略 可能한 部分을 나타내기 爲해 括弧를 大括弧 代身 쓰기도 한다(例: 【이 골 원을 하다가 저 골에 [가서] 좌수 노릇도 한다】).
- 括弧 雙(
- 標題語의 構成 單位가 俗談인 境遇(
<word_unit>속담</word_unit>
)에 限해 다음 文字도 나타난다:- 半點(
,
, U+002C COMMA): 俗談이다 보니 種種 半點이 쓰인다(例: 【닭 소 보듯, 소 닭 보듯】). - 온點(
.
, U+002E FULL STOP): 原則的으로 俗談이라 해도 標題語에 온點이 들어가지는 않지만, 몇몇 俗談 標題語는 온點으로 끝난다(例: 【헤엄 잘 치는 놈 물에 빠져 죽고 나무에 잘 오르는 놈 나무에서 떨어져 죽는다.】). 아마도 表記 誤謬. - 括弧(
(
–)
, U+0028 LEFT PARENTHESIS, U+0029 RIGHT PARENTHESIS) 속 漢字: 漢字語 成分의 漢字를 括弧 안에 가 倂記될 수 있다(例: 【노장은 병담(兵談)을 아니 하고 양고(良賈)는 심장(深藏)한다】). 成分이 固有語와 漢字語의 複合語라면 처음이나 끝쪽의 固有語는 붙임標(-
, U+0020 HYPHEN-MINUS)로 省略할 수 있다(例: 【물고 차는 상사말(相思-)】).
- 半點(
아마도 레거시 시스템의 影響으로, 現代 유니코드로 잘 表現할 수 있는 옛한글이나 僻字들을 유니코드 私用面(Private Use Area)를 通해 符號化한다. (私用面은 元來 用途가 그렇다보니 그렇게 쓰인 코드들은 모두 恣意的이며, 다른 시스템이나 書體에서는 意圖대로 보이지 않는다.) 그 中 옛한글에 쓰이는 符號는 아래아한글에서 2000年代 初에 쓰였던 漢陽 PUA라는 方式이다.
어깨番號가 없으면 아예 나타나지 않지만(例: 【멱-살】), 있다면 꼭 두 자리로 나타난다(例: 意思 → 【의사02】, 醫師 → 【의사12】). 어깨番號를 除外한 標題語에 아라비아 數字가 있을 수 없으므로, 마지막 두 글字가 아라비아 數字라면 이는 반드시 어깨番號를 뜻한다.
어깨番號가 區別하는 것은 오직 同綴異義語뿐이다. 同音異義語(homophone)라도 綴字가 다른 낱말은 어깨番號 없이도 標題語만으로 區別할 수 있다. 例를 들어, 【학문02】(學問)과 【항문01】(肛門)은 모두 〔항문〕으로 發音이 같지만, 綴字가 다르기 때문에 標題語만으로 區分이 된다. 反面, 【상장05】(上場)과 【상장09】(賞狀)은 各各 〔상ː장〕과 〔상짱〕으로 다르게 發音하지만 綴字가 겹치기 때문에 標題語만으로 區別할 수 없어 다른 어깨番號를 매겨야 한다.
2-b. <word_unit>
標題語의 構成 單位. 단어
, 구
, 속담
, 관용구
中 하나의 값을 지닌다. 각 單位의 例로는 다음의 標題語들이 있다:
- 單語: 【메가폰】, 【낳다02】
- 句: 【목^운동】, 【니벨룽겐의 노래】
- 俗談: 【제 팔자 개 못 준다】, 【늦은 밥 먹고 파장(罷場) 간다】
- 慣用句: 【죽으나 사나】, 【표를 던지다】
그리고 各 構成 單位는 自然스럽게 다음과 같은 패턴을 보인다:
- 單語에는 空白 文字가 들어가지 않는다. 單語는 붙여서 쓸 수 있어야 하기 때문에 띄어서 쓸 수 있더라도 空白 文字가 아닌 삿갓標가 들어가기 때문이다.
- 俗談과 慣用句는 事實上 同音異義語가 있을 수 없기 때문에 어깨 番號가 없다.
- 俗談을 除外하면 標題語에는 括弧나 漢字가 나타나지 않는다.
2-c. <word_type>
固有語 與否. <word_unit>
이 單語이거나 句일 때만 나타나며, 俗談이나 慣用句일 때는 나타나지 않는다. 고유어
, 한자어
, 외래어
, 혼종어
中 하나의 값을 지닌다. 각 類型의 例로는 다음의 標題語들이 있다:
- 固有語: 【목-울음】, 【도움-말】
- 漢字語: 【국제^무역】, 【미학】
- 外來語: 【메노^알레그로】, 【마오-쩌둥】
- 混種語: 【노잣-돈】, 【피타고라스의^정리】
2-d. <original_language_info>
原語 情報를 담는 껍데기. <word_unit>
이 單語이거나 句인 境遇에만 나타나며, 俗談이나 慣用句일 때는 쓰이지 않는다.
<word_type>
이 混種語일 境遇 여러 <original_language_info>
가 있을 수 있다. 例를 들어, 混種語 【메뉴-판】을 이루는 두 成分은 各各 英語 “menu”와 漢字 「板」이라는 異質的인 原語에서 由來했기 때문에 順序대로 다음과 같이 表現된다.
<word>메뉴-판</word>
<word_unit>단어</word_unit>
<word_type>혼종어</word_type>
<original_language_info>
<original_language>menu</original_language>
<language_type>영어</language_type>
</original_language_info>
<original_language_info>
<original_language>板</original_language>
<language_type>한자</language_type>
</original_language_info>
<word_type>
이 混種語가 아니더라도 原語의 表記가 둘 以上 있을 때도 여러 <original_language_info>
가 있을 수 있는데, 主로 漢字語의 여러 異體字를 羅列할 때 쓰인다. 但, 이 境遇 混用語의 各 成分이 順序대로 이어지는 것이 아니라, 別個의 表記라는 것을 나타내기 爲해 각 原語 表記 사이에 /
라는 假表記가 揷入된다 (이 假表記의 言語名으로는 /병기
가 채워진다). 例를 들어, 국수를 뜻하는 漢字語 【면08】은 漢字로 「麵」 말고도 「麪」로도 쓰이기 때문에 아래와 같이 나타낸다.
<word>면08</word>
<word_unit>단어</word_unit>
<word_type>한자어</word_type>
<original_language_info>
<original_language>麵</original_language>
<language_type>한자</language_type>
</original_language_info>
<original_language_info>
<original_language>/</original_language>
<language_type>/(병기)</language_type>
</original_language_info>
<original_language_info>
<original_language>麪</original_language>
<language_type>한자</language_type>
</original_language_info>
2-d-ⅰ. <original_language>
原語. 例를 들어 【파스타01】의 原語는 “pasta”로, 【아모르-파티】의 原語는 “amor fati”로 적힌다.
固有語는 原語를 굳이 밝히지 않지만, 混種語 안에 섞인 固有語 性分은 한글로 나타낸다. 例를 들어 【잔-돈02】의 原語는 “殘”과 “돈”으로 나누어 적는다 (<original_language_info>
가 連달아 두 番 나온다).
漢字語인 境遇에는 漢字로 表記되나, 그 밖의 境遇에는 原言語의 主된 表記 體系가 로마字가 아니더라도 로마字로 表記된다. 例를 들어 산스크리트語 “कर्म”에서 由來한 【카르마】의 原語는 데바나가리 文字가 아닌 로마字 “karma”로, 러시아語 «сове́т»에서 由來한 【소비에트】의 原語는 키릴 文字가 아닌 로마字 “Soviet”로 적힌다.
固有名詞의 原語는 英語 綴字法과 비슷하게 大文字로 始作하며, 그 固有名詞가 英美圈에서 由來하지 않았더라도 그렇다. 例를 들어 【마야02】의 原語는 “Māyā”로 적힌다. 하지만 原語가 獨逸語처럼 原言語上의 綴字法上 固有名詞가 아니여도 大文字로 始作하는 境遇에는 이를 따른다. 例를 들어 【요오드】의 原語는 獨逸語의 綴字法을 따라 “Jod”로 적힌다.
人名의 境遇, 標題語에 姓名 中 一部만 드러났어도 姓氏나 가운데 이름(middle name) 等을 包含한다. 이 때, 標題語에 該當하는 原語 表記에서 가장 앞에 나올 수 있도록 半點을 찍고 이름의 順序을 뒤집어 적을 수 있다. 例를 들어 【케네디】의 原語는 “Kennedy, John Fitzgerald”로, 【트로츠키】의 原語는 “Trotsky, Leon”으로 적힌다.
原言語가 現代에도 主된 表記 體系로 漢字를 쓰고 있는 境遇, 로마字로 적힌 原語 바로 뒤 大括弧 안에 漢字를 倂記한다. 例를 들어 【베이징】의 原語는 “Beijing[北京]”으로, 【사무라이】의 原語는 “samurai[侍]”로 적힌다. 이 때, 漢字의 字體는 原語의 標準的 字體(中國의 簡化字나 日本의 新字體)를 따르는 것이 아니라, 韓國에서 主로 쓰이는 字體를 따른다.[2] 例를 들어 【지단05】의 原語는 “jidan[鷄蛋]”으로, 【우동02】의 原語는 “udon[饂飩]”으로 적힌다. 그렇지만 原語에서 漢字로 적지 않는 것은 로마字로 적는다. 例를 들어 【마후라】의 原語는 “mahurâ”로 적힌다. 또, 現代에 漢字를 全面 廢止한 言語도 이러한 倂記가 省略된다. 例를 들어 【베트콩】(←越共)의 原語는 “Vietcong”으로만, 【베트민】(←越盟)의 原語는 “Vietminh”으로만 적힌다.
漢字語지만 元來의 漢字音과 乖離가 생긴 한글 表記가 굳어진 境遇, 該當 漢字 뒤에 세모(▽)를 붙여 나타낸다. 例를 들어 【시월01】(←십월)의 原語는 “十▽月”로, 【맹세02】(←맹서)의 原語는 “盟誓▽”로, 【의논】(←의론)의 原語는 “議論▽”으로 적힌다.
外來語 表記法에 어긋난 表記가 이미 널리 通用되어 標題語로 登載됐거나, 土着化되며 原語와 그 發音이 동떨어진 境遇, 原語 表記의 맨 앞에 화살標(←)를 붙여 나타낸다. 例를 들어, 【에어컨】의 原語는 “←air conditioner”로, 【자장면】의 原語는 “←zhajiangmian[炸醬麵]”으로, 【앙꼬】의 原語는 “←anko[餡子]”로 적힌다.
原語 表記에 있어 일부 文字는 <equ>
와 </equ>
사이에 符號化된다. 該當 태그는 XML 엘리먼트가 아니라, 平文 內에 別途로 나타나는 符號임을 注意. 例를 들어, 【니르바나】의 原語는 <original_language><![CDATA[nirvā<equ>ṇ</equ>a]]></original_language>
로 表現되는데, 이를 CDATA 섹션을 쓰지 않은 XML로 나타내면 곧 <original_language>nirvā<equ>&#x1E47;</equ>a</original_language>
이며, <equ>ṇ</equ>
部分은 文字 “ṇ”을 나타내는 것으로, 結果的으로 一般的인 유니코드로는 “nirvāṇa”를 가리킨다.
앞서 記述한 바와 같이, 한 낱말의 原語가 여러 表記를 가질 수 있다 (主로 漢字語의 異體字들). 그러한 各各의 表記 사이에는 /
라는 假表記가 들어간다.
2-d-ⅱ. <language_type>
原語의 言語.
韓國語의 境遇 固有語와 漢字語를 區別한다.
人名 標題語는 言語를 밝히지 않는다 (<language_type>안 밝힘</language_type>
).
앞서 記述한 바와 같이, 한 낱말의 原語가 여러 表記를 가질 수 있다 (主로 漢字語의 異體字들). 그러한 各各의 表記 사이에는 /(병기)
라는 假言語가 들어간다.
2022年 9月字 데이터를 基準으로, 다음과 같은 값들이 <language_type>
에 들어간다.
/(병기)
고유어
그리스어
기타어
네덜란드어
노르웨이어
독일어
라틴어
러시아어
루마니아어
말레이어
몽골어
베트남어
불가리아어
산스크리트어
세르보·크로아트어
스웨덴어
아랍어
에스파냐어
영어
이탈리아어
인도네시아어
일본어
중국어
체코어
타이어
터키어
페르시아어
포르투갈어
프랑스어
핀란드어
한자
헝가리어
히브리어
힌디어
안 밝힘
2-e. <pronunciation_info>
發音 情報를 담는 껍데기. <word_unit>
이 單語일 境遇에만 나오고, <word_type>
이 外來語일 때는 나오지 않는다. <word_type>
가 混種語일 때도 固有語·漢字 以外의 外來語 成分이 섞여 있으면 나오지 않는다.
이 안에는 반드시 하나의 <pronunciation>
가 들어있게 되어 있고, 모든 情報는 <pronunciation>
안에 담기므로, 정작 이 껍데기에는 別 情報는 없다.
가끔 한 낱말이 여러 發音을 갖기도 한다. (이를테면 現代 韓國語에서 「이」로 發音되는 傾向이 있는 「의」가 들어간 낱말들이 그렇다.) 그런 境遇라도 하나의 <pronunciation_info>
안에 여러 <pronunciation>
들이 들어가는 것이 아닌, 여러 <pronunciation_info>
안에 各各 하나씩의 <pronunciation>
만 들어간다. 例를 들어 【공산-주의】의 發音은 다음과 같이 적힌다.
<word>공산-주의</word>
<!-- … -->
<pronunciation_info>
<pronunciation>공ː산주의</pronunciation>
</pronunciation_info>
<pronunciation_info>
<pronunciation>공ː산주이</pronunciation>
</pronunciation_info>
2-e-ⅰ. <pronunciation>
낱말의 發音이 담긴다. 發音은 한글로 소리나는대로 적힌다.
2-f. <conju_info>
낱말의 活用形을 담는 껍데기. <word_unit>
이 單語일 境遇에만 나타나고, <word_type>
이 外來語일 때는 나타나지 않는다. 그 밖의 境遇라도 반드시 나타나는 것은 아니다.
例를 들어 【걷다02】의 活用形은 다음과 같이 적힌다.
<word>걷다02</word>
<!-- … -->
<conju_info>
<conjugation_info>
<conjugation>걸어</conjugation>
</conjugation_info>
</conju_info>
<conju_info>
<conjugation_info>
<conjugation>걸으니</conjugation>
</conjugation_info>
</conju_info>
<conju_info>
<conjugation_info>
<conjugation>걷는</conjugation>
</conjugation_info>
</conju_info>
TODO: <origin>
語源. <word_unit>
이 單語이거나 句인 境遇에만 나타나며, 그 안에서도 漏落된 境遇가 더 많다. <
(U+FF1C FULLWIDTH LESS-THAN SIGN) 記號로 語源의 經路를 나타낸다.
《標準國語大辭典》 일러두기에 있는 〈國語史 文獻 資料 出典 略號 目錄〉 參考.
《標準國語大辭典》 일러두기의 〈語源 情報〉 參考.
“어깨番號”는 아마도 “superscript number”를 옮긴 말로 보이지만, 《標準國語大辭典》에서의 役割은 同綴異義語(homographs)의 區別하는 番號(homonym number)이다. 이러한 番號는 꼭 위添字로 表記해야 하는 것은 아닐 수 있고, 實際로 英美圈의 辭典은 大體로 아래添字(subscript)로 表記하는 境遇가 더 많으므로, 언제나 위添字로 表記될 것을 想定하는 “어깨番號”라는 말을 “homonym number”의 뜻으로 쓰는 것은 아주 適切하지는 않다. 하지만 《標國大》의 編纂陣이 고른 말이므로 一旦은 여기서도 그에 따르기로 한다. ↩︎
《標準國語大辭典》의 漢字 字體 指針이 있을 것이나, 外部로 明示된 바는 없다. 《康熙字典》의 字體를 바탕으로 한, 臺灣의 正體나 香港의 繁體, 日本의 舊字體에 가까운 字體로 推定된다. ↩︎