標準國語大辭典 XML 데이터 포맷

本(본) 文書(문서)는 《標準(표준)國語(국어)大辭典(대사전)》公式(공식) 웹사이트에서 ‘辭典(사전) 내려받기’ 機能(기능)으로 얻을 수 있는 XML 데이터의 포맷을 解說(해설)한다. 公式(공식) 웹사이트에 올라온 Open API 文書(문서)에도 槪略的(개략적) 說明(설명)이 있긴 하지만, 具體的(구체적)으로 각 項目(항목)이 무엇을 뜻하는지 例示(예시)가 없어 와닿기 어렵기 때문에 解說(해설)을 따로 쓰게 되었다.

어째서인지 맨 바깥은 RSS 포맷을 따르고 있지만, <item> 안쪽으로는 獨自的(독자적)인 포맷으로 되어 있다. 하나의 標題語(표제어)가 하나의 <item> 要素(요소)로 表現(표현)되고 있고, 그보다 바깥 데이터는 別(별) 情報(정보)가 없으므로, <item>부터 다룬다.

`<item>`

標題語(표제어)를 담는 껍데기.

바로 안쪽에는 <target_code> 要素(요소)와 <word_info> 要素(요소)만 存在(존재)하며, 實質的(실질적)인 內容(내용)은 모두 <word_info>에 들어있다.

1. `<target_code>`

標題語(표제어)의 固有(고유)番號(번호).

<link_target_code> 要素(요소)가 다른 標題語(표제어)를 이러한 固有(고유)番號(번호)로 가리킨다.

2. `<word_info>`

標題語(표제어)에 달린 모든 情報(정보)를 묶는 껍데기.

2-a. `<word>`

標題語(표제어)와 同(동)綴(철)異義(이의)語(어)(homographs) 區別(구별)用(용) 어깨 番號(번호)^[1].

마지막에 나오는 어깨番號(어깨번호)를 除外(제외)하고, 標題語(표제어)는 以下(이하)의 글字(글자)들로 이뤄진다.

한글: 漢字語(한자어)나 外來語(외래어)도 모두 한글로 적는다(例(예): 崩壞(붕괴) → 【붕괴】, supermarket → 【슈퍼마켓】). 慣用的(관용적)으로 로마字(자)로 적는 頭文字(두문자) 略語(약어)나 아라비아 數字(수자)로 쓰이는 것도 原則(원칙)에 따라 한글로만 쓰인다(例(예): PD → 【피디】, 6·25 戰爭(전쟁) → 【육이오^전쟁】).
붙임標(붙임표)(-, U+0020 HYPHEN-MINUS): 依存(의존)形態素(형태소)가 結合(결합)되는 標題語(표제어)의 처음이나 마지막에 나타난다(例(예): 【대-21】〔對(대)〕, 【-이다21】). 또는, 複合語(복합어)의 成分(성분)을 나누어 보여준다(例(예): 【바닷-가】, 【극-사실주의】, 【아이스-크림】). 但(단), 外來語(외래어)는 原語(원어)에서 複合語(복합어)였어도 原語(원어)上(상)의 成分(성분) 各各(각각)이 韓國語(한국어) 內(내)에서까지 個別的(개별적)으로 外來語(외래어)로 남아 있지 않다면 나누어 보여주지는 않는다(例(예): rendez-vous → 【랑데부】).
空白(공백) 文字(문자)( , U+0020 SPACE): 띄어쓰기를 나타낸다(例(예): 【제 팔자 개 못 준다】, 【이토 히로부미】).
삿갓標(표)(^, U+005E CIRCUMFLEX ACCENT): 붙여 쓰기를 許容(허용)하는 띄어쓰기를 나타낸다(例(예): 【바다^지도】, 【수행^평가】).
옛한글 아래아(ㆍ, U+318D HANGUL LETTER ARAEA): 유니코드 포인트로 옛한글 아래아를 誤用(오용)하고 있으나, 아무튼 實際(실제) 가리키는 바는 가운뎃點(가운뎃점)(interpunct)이다(例(예): 【독일ㆍ오스트리아^전쟁】).
標題語(표제어)의 構成(구성) 單位(단위)가 俗談(속담)이거나 慣用句(관용구)인 境遇(경우)(<word_unit>속담</word_unit> 또는 <word_unit>관용구</word_unit>)에 限(한)해 다음 文字(문자)도 나타난다:
- 括弧(괄호) 雙(쌍)((–), U+0028 LEFT PARENTHESIS, U+0029 RIGHT PARENTHESIS): 省略(생략)되기도 하는 部分(부분)은 括弧(괄호) 안에 감싼다(例(예): 【과실 망신은 모과가 (다) 시킨다】). 이 때, 여는 括弧(괄호) 바로 앞의 띄어쓰기와 닫는 括弧(괄호) 바로 뒤의 띄어쓰기는 省略(생략)되지 않았을 때의 띄어쓰기를 나타낸다(例(예): 【시(를) 매기다】 → “시 매기다” 또는 “시를 매기다”). 또한, 括弧(괄호) 안에는 여러 다르게 쓰기도 하는 代替(대체)語(어)가 빗금(/, U+002F SOLIDUS)을 사이에 두고 羅列(나열)되기도 한다(例(예): 【곁가마가 (더/먼저) 끓는다】).
- 大括弧(대괄호) 雙(쌍)([–], U+005B LEFT SQUARE BRACKET, U+005D RIGHT SQUARE BRACKET): 바로 앞에 나오는 말을 다르게 쓰기도 하는 境遇(경우), 바로 뒤에 代替(대체)語(어)를 大括弧(대괄호)로 감싸 보여준다. 代替(대체)語(어)가 둘 以上(이상)이면 代替(대체)語(어)들을 빗금(/, U+002F SOLIDUS)을 사이에 두고 羅列(나열)한다(例(예): 【종로에서 뺨 맞고 한강에서[빙고에서/한강에 가서/행랑 뒤에서] 눈 흘긴다】). 하지만 아주 가끔은 表記法(표기법)이 흔들려서 省略(생략) 可能(가능)한 部分(부분)을 나타내기 爲(위)해 括弧(괄호)를 大括弧(대괄호) 代身(대신) 쓰기도 한다(例(예): 【이 골 원을 하다가 저 골에 [가서] 좌수 노릇도 한다】).
標題語(표제어)의 構成(구성) 單位(단위)가 俗談(속담)인 境遇(경우)(<word_unit>속담</word_unit>)에 限(한)해 다음 文字(문자)도 나타난다:
- 半點(반점)(,, U+002C COMMA): 俗談(속담)이다 보니 種種(종종) 半點(반점)이 쓰인다(例(예): 【닭 소 보듯, 소 닭 보듯】).
- 온點(온점)(., U+002E FULL STOP): 原則的(원칙적)으로 俗談(속담)이라 해도 標題語(표제어)에 온點(온점)이 들어가지는 않지만, 몇몇 俗談(속담) 標題語(표제어)는 온點(온점)으로 끝난다(例(예): 【헤엄 잘 치는 놈 물에 빠져 죽고 나무에 잘 오르는 놈 나무에서 떨어져 죽는다.】). 아마도 表記(표기) 誤謬(오류).
- 括弧(괄호)((–), U+0028 LEFT PARENTHESIS, U+0029 RIGHT PARENTHESIS) 속 漢字(한자): 漢字語(한자어) 成分(성분)의 漢字(한자)를 括弧(괄호) 안에 가 倂記(병기)될 수 있다(例(예): 【노장은 병담(兵(병)談(담))을 아니 하고 양고(良賈(양고))는 심장(深藏(심장))한다】). 成分(성분)이 固有語(고유어)와 漢字語(한자어)의 複合語(복합어)라면 처음이나 끝쪽의 固有語(고유어)는 붙임標(붙임표)(-, U+0020 HYPHEN-MINUS)로 省略(생략)할 수 있다(例(예): 【물고 차는 상사말(相思(상사)-)】).

아마도 레거시 시스템의 影響(영향)으로, 現代(현대) 유니코드로 잘 表現(표현)할 수 있는 옛한글이나 僻字(벽자)들을 유니코드 私用(사용)面(면)(Private Use Area)를 通(통)해 符號化(부호화)한다. (私用(사용)面(면)은 元來(원래) 用途(용도)가 그렇다보니 그렇게 쓰인 코드들은 모두 恣意的(자의적)이며, 다른 시스템이나 書體(서체)에서는 意圖(의도)대로 보이지 않는다.) 그 中(중) 옛한글에 쓰이는 符號(부호)는 아래아한글에서 2000年代(연대) 初(초)에 쓰였던 漢陽(한양) PUA라는 方式(방식)이다.

어깨番號(어깨번호)가 없으면 아예 나타나지 않지만(例(예): 【멱-살】), 있다면 꼭 두 자리로 나타난다(例(예): 意思(의사) → 【의사02】, 醫師(의사) → 【의사12】). 어깨番號(어깨번호)를 除外(제외)한 標題語(표제어)에 아라비아 數字(수자)가 있을 수 없으므로, 마지막 두 글字(글자)가 아라비아 數字(수자)라면 이는 반드시 어깨番號(어깨번호)를 뜻한다.

어깨番號(어깨번호)가 區別(구별)하는 것은 오직 同(동)綴(철)異義(이의)語(어)뿐이다. 同音異義語(동음이의어)(homophone)라도 綴字(철자)가 다른 낱말은 어깨番號(어깨번호) 없이도 標題語(표제어)만으로 區別(구별)할 수 있다. 例(예)를 들어, 【학문02】(學問(학문))과 【항문01】(肛門(항문))은 모두 〔항문〕으로 發音(발음)이 같지만, 綴字(철자)가 다르기 때문에 標題語(표제어)만으로 區分(구분)이 된다. 反面(반면), 【상장05】(上場(상장))과 【상장09】(賞狀(상장))은 各各(각각) 〔상ː장〕과 〔상짱〕으로 다르게 發音(발음)하지만 綴字(철자)가 겹치기 때문에 標題語(표제어)만으로 區別(구별)할 수 없어 다른 어깨番號(어깨번호)를 매겨야 한다.

2-b. `<word_unit>`

標題語(표제어)의 構成(구성) 單位(단위). 단어, 구, 속담, 관용구 中(중) 하나의 값을 지닌다. 각 單位(단위)의 例(예)로는 다음의 標題語(표제어)들이 있다:

單語(단어): 【메가폰】, 【낳다02】
句(구): 【목^운동】, 【니벨룽겐의 노래】
俗談(속담): 【제 팔자 개 못 준다】, 【늦은 밥 먹고 파장(罷場(파장)) 간다】
慣用句(관용구): 【죽으나 사나】, 【표를 던지다】

그리고 各(각) 構成(구성) 單位(단위)는 自然(자연)스럽게 다음과 같은 패턴을 보인다:

單語(단어)에는 空白(공백) 文字(문자)가 들어가지 않는다. 單語(단어)는 붙여서 쓸 수 있어야 하기 때문에 띄어서 쓸 수 있더라도 空白(공백) 文字(문자)가 아닌 삿갓標(표)가 들어가기 때문이다.
俗談(속담)과 慣用句(관용구)는 事實上(사실상) 同音異義語(동음이의어)가 있을 수 없기 때문에 어깨 番號(번호)가 없다.
俗談(속담)을 除外(제외)하면 標題語(표제어)에는 括弧(괄호)나 漢字(한자)가 나타나지 않는다.

2-c. `<word_type>`

固有語(고유어) 與否(여부). <word_unit>이 單語(단어)이거나 句(구)일 때만 나타나며, 俗談(속담)이나 慣用句(관용구)일 때는 나타나지 않는다. 고유어, 한자어, 외래어, 혼종어 中(중) 하나의 값을 지닌다. 각 類型(유형)의 例(예)로는 다음의 標題語(표제어)들이 있다:

固有語(고유어): 【목-울음】, 【도움-말】
漢字語(한자어): 【국제^무역】, 【미학】
外來語(외래어): 【메노^알레그로】, 【마오-쩌둥】
混種語(혼종어): 【노잣-돈】, 【피타고라스의^정리】

2-d. `<original_language_info>`

原語(원어) 情報(정보)를 담는 껍데기. <word_unit>이 單語(단어)이거나 句(구)인 境遇(경우)에만 나타나며, 俗談(속담)이나 慣用句(관용구)일 때는 쓰이지 않는다.

<word_type>이 混種語(혼종어)일 境遇(경우) 여러 <original_language_info>가 있을 수 있다. 例(예)를 들어, 混種語(혼종어) 【메뉴-판】을 이루는 두 成分(성분)은 各各(각각) 英語(영어) “menu”와 漢字(한자) 「板(판)」이라는 異質的(이질적)인 原語(원어)에서 由來(유래)했기 때문에 順序(순서)대로 다음과 같이 表現(표현)된다.

<word>메뉴-판</word>
<word_unit>단어</word_unit>
<word_type>혼종어</word_type>
<original_language_info>
  <original_language>menu</original_language>
  <language_type>영어</language_type>
</original_language_info>
<original_language_info>
  <original_language>板</original_language>
  <language_type>한자</language_type>
</original_language_info>

<word_type>이 混種語(혼종어)가 아니더라도 原語(원어)의 表記(표기)가 둘 以上(이상) 있을 때도 여러 <original_language_info>가 있을 수 있는데, 主로(주로) 漢字語(한자어)의 여러 異體(이체)字(자)를 羅列(나열)할 때 쓰인다. 但(단), 이 境遇(경우) 混用(혼용)語(어)의 各(각) 成分(성분)이 順序(순서)대로 이어지는 것이 아니라, 別個(별개)의 表記(표기)라는 것을 나타내기 爲(위)해 각 原語(원어) 表記(표기) 사이에 /라는 假(가)表記(표기)가 揷入(삽입)된다 (이 假(가)表記(표기)의 言語(언어)名(명)으로는 /병기가 채워진다). 例(예)를 들어, 국수를 뜻하는 漢字語(한자어) 【면08】은 漢字(한자)로 「麵(면)」 말고도 「麪(면)」로도 쓰이기 때문에 아래와 같이 나타낸다.

<word>면08</word>
<word_unit>단어</word_unit>
<word_type>한자어</word_type>
<original_language_info>
  <original_language>麵</original_language>
  <language_type>한자</language_type>
</original_language_info>
<original_language_info>
  <original_language>/</original_language>
  <language_type>/(병기)</language_type>
</original_language_info>
<original_language_info>
  <original_language>麪</original_language>
  <language_type>한자</language_type>
</original_language_info>

2-d-ⅰ. `<original_language>`

原語(원어). 例(예)를 들어 【파스타01】의 原語(원어)는 “pasta”로, 【아모르-파티】의 原語(원어)는 “amor fati”로 적힌다.

固有語(고유어)는 原語(원어)를 굳이 밝히지 않지만, 混種語(혼종어) 안에 섞인 固有語(고유어) 性分(성분)은 한글로 나타낸다. 例(예)를 들어 【잔-돈02】의 原語(원어)는 “殘(잔)”과 “돈”으로 나누어 적는다 (<original_language_info>가 連(연)달아 두 番(번) 나온다).

漢字語(한자어)인 境遇(경우)에는 漢字(한자)로 表記(표기)되나, 그 밖의 境遇(경우)에는 原(원)言語(언어)의 主(주)된 表記(표기) 體系(체계)가 로마字(자)가 아니더라도 로마字(자)로 表記(표기)된다. 例(예)를 들어 산스크리트語(어) “कर्म”에서 由來(유래)한 【카르마】의 原語(원어)는 데바나가리 文字(문자)가 아닌 로마字(자) “karma”로, 러시아語(어) «сове́т»에서 由來(유래)한 【소비에트】의 原語(원어)는 키릴 文字(문자)가 아닌 로마字(자) “Soviet”로 적힌다.

固有(고유)名詞(명사)의 原語(원어)는 英語(영어) 綴字法(철자법)과 비슷하게 大文字(대문자)로 始作(시작)하며, 그 固有(고유)名詞(명사)가 英美(영미)圈(권)에서 由來(유래)하지 않았더라도 그렇다. 例(예)를 들어 【마야02】의 原語(원어)는 “Māyā”로 적힌다. 하지만 原語(원어)가 獨逸語(독일어)처럼 原(원)言語(언어)上(상)의 綴字法(철자법)上(상) 固有(고유)名詞(명사)가 아니여도 大文字(대문자)로 始作(시작)하는 境遇(경우)에는 이를 따른다. 例(예)를 들어 【요오드】의 原語(원어)는 獨逸語(독일어)의 綴字法(철자법)을 따라 “Jod”로 적힌다.

人名(인명)의 境遇(경우), 標題語(표제어)에 姓名(성명) 中(중) 一部(일부)만 드러났어도 姓氏(성씨)나 가운데 이름(middle name) 等(등)을 包含(포함)한다. 이 때, 標題語(표제어)에 該當(해당)하는 原語(원어) 表記(표기)에서 가장 앞에 나올 수 있도록 半點(반점)을 찍고 이름의 順序(순서)을 뒤집어 적을 수 있다. 例(예)를 들어 【케네디】의 原語(원어)는 “Kennedy, John Fitzgerald”로, 【트로츠키】의 原語(원어)는 “Trotsky, Leon”으로 적힌다.

原(원)言語(언어)가 現代(현대)에도 主(주)된 表記(표기) 體系(체계)로 漢字(한자)를 쓰고 있는 境遇(경우), 로마字(자)로 적힌 原語(원어) 바로 뒤 大括弧(대괄호) 안에 漢字(한자)를 倂記(병기)한다. 例(예)를 들어 【베이징】의 原語(원어)는 “Beijing[北京(베이징)]”으로, 【사무라이】의 原語(원어)는 “samurai[侍(사무라이)]”로 적힌다. 이 때, 漢字(한자)의 字體(자체)는 原語(원어)의 標準的(표준적) 字體(자체)(中國(중국)의 簡(간)化(화)字(자)나 日本(일본)의 新(신)字體(자체))를 따르는 것이 아니라, 韓國(한국)에서 主로(주로) 쓰이는 字體(자체)를 따른다.^[2] 例(예)를 들어 【지단05】의 原語(원어)는 “jidan[鷄蛋(지단)]”으로, 【우동02】의 原語(원어)는 “udon[饂飩(우동)]”으로 적힌다. 그렇지만 原語(원어)에서 漢字(한자)로 적지 않는 것은 로마字(자)로 적는다. 例(예)를 들어 【마후라】의 原語(원어)는 “mahurâ”로 적힌다. 또, 現代(현대)에 漢字(한자)를 全面(전면) 廢止(폐지)한 言語(언어)도 이러한 倂記(병기)가 省略(생략)된다. 例(예)를 들어 【베트콩】(←越(월)共(공))의 原語(원어)는 “Vietcong”으로만, 【베트민】(←越盟(월맹))의 原語(원어)는 “Vietminh”으로만 적힌다.

漢字語(한자어)지만 元來(원래)의 漢字音(한자음)과 乖離(괴리)가 생긴 한글 表記(표기)가 굳어진 境遇(경우), 該當(해당) 漢字(한자) 뒤에 세모(▽)를 붙여 나타낸다. 例(예)를 들어 【시월01】(←십월)의 原語(원어)는 “十(십)▽月(월)”로, 【맹세02】(←맹서)의 原語(원어)는 “盟誓(맹서)▽”로, 【의논】(←의론)의 原語(원어)는 “議論(의논)▽”으로 적힌다.

外來語(외래어) 表記法(표기법)에 어긋난 表記(표기)가 이미 널리 通用(통용)되어 標題語(표제어)로 登載(등재)됐거나, 土着化(토착화)되며 原語(원어)와 그 發音(발음)이 동떨어진 境遇(경우), 原語(원어) 表記(표기)의 맨 앞에 화살標(화살표)(←)를 붙여 나타낸다. 例(예)를 들어, 【에어컨】의 原語(원어)는 “←air conditioner”로, 【자장면】의 原語(원어)는 “←zhajiangmian[炸醬麵(자장면)]”으로, 【앙꼬】의 原語(원어)는 “←anko[餡子(앙꼬)]”로 적힌다.

原語(원어) 表記(표기)에 있어 일부 文字(문자)는 <equ>와 </equ> 사이에 符號化(부호화)된다. 該當(해당) 태그는 XML 엘리먼트가 아니라, 平文(평문) 內(내)에 別途(별도)로 나타나는 符號(부호)임을 注意(주의). 例(예)를 들어, 【니르바나】의 原語(원어)는 <original_language><![CDATA[nirvā<equ>ṇ</equ>a]]></original_language>로 表現(표현)되는데, 이를 CDATA 섹션을 쓰지 않은 XML로 나타내면 곧 <original_language>nirvā<equ>&#x1E47;</equ>a</original_language>이며, <equ>ṇ</equ> 部分(부분)은 文字(문자) “ṇ”을 나타내는 것으로, 結果的(결과적)으로 一般的(일반적)인 유니코드로는 “nirvāṇa”를 가리킨다.

앞서 記述(기술)한 바와 같이, 한 낱말의 原語(원어)가 여러 表記(표기)를 가질 수 있다 (主로(주로) 漢字語(한자어)의 異體(이체)字(자)들). 그러한 各各(각각)의 表記(표기) 사이에는 /라는 假(가)表記(표기)가 들어간다.

2-d-ⅱ. `<language_type>`

原語(원어)의 言語(언어).

韓國語(한국어)의 境遇(경우) 固有語(고유어)와 漢字語(한자어)를 區別(구별)한다.

人名(인명) 標題語(표제어)는 言語(언어)를 밝히지 않는다 (<language_type>안 밝힘</language_type>).

앞서 記述(기술)한 바와 같이, 한 낱말의 原語(원어)가 여러 表記(표기)를 가질 수 있다 (主로(주로) 漢字語(한자어)의 異體(이체)字(자)들). 그러한 各各(각각)의 表記(표기) 사이에는 /(병기)라는 假(가)言語(언어)가 들어간다.

2022年(년) 9月(월)字(자) 데이터를 基準(기준)으로, 다음과 같은 값들이 <language_type>에 들어간다.

/(병기)
고유어
그리스어
기타어
네덜란드어
노르웨이어
독일어
라틴어
러시아어
루마니아어
말레이어
몽골어
베트남어
불가리아어
산스크리트어
세르보·크로아트어
스웨덴어
아랍어
에스파냐어
영어
이탈리아어
인도네시아어
일본어
중국어
체코어
타이어
터키어
페르시아어
포르투갈어
프랑스어
핀란드어
한자
헝가리어
히브리어
힌디어
안 밝힘

2-e. `<pronunciation_info>`

發音(발음) 情報(정보)를 담는 껍데기. <word_unit>이 單語(단어)일 境遇(경우)에만 나오고, <word_type>이 外來語(외래어)일 때는 나오지 않는다. <word_type>가 混種語(혼종어)일 때도 固有語(고유어)·漢字(한자) 以外(이외)의 外來語(외래어) 成分(성분)이 섞여 있으면 나오지 않는다.

이 안에는 반드시 하나의 <pronunciation>가 들어있게 되어 있고, 모든 情報(정보)는 <pronunciation> 안에 담기므로, 정작 이 껍데기에는 別(별) 情報(정보)는 없다.

가끔 한 낱말이 여러 發音(발음)을 갖기도 한다. (이를테면 現代(현대) 韓國語(한국어)에서 「이」로 發音(발음)되는 傾向(경향)이 있는 「의」가 들어간 낱말들이 그렇다.) 그런 境遇(경우)라도 하나의 <pronunciation_info> 안에 여러 <pronunciation>들이 들어가는 것이 아닌, 여러 <pronunciation_info> 안에 各各(각각) 하나씩의 <pronunciation>만 들어간다. 例(예)를 들어 【공산-주의】의 發音(발음)은 다음과 같이 적힌다.

<word>공산-주의</word>
<!-- … -->
<pronunciation_info>
  <pronunciation>공ː산주의</pronunciation>
</pronunciation_info>
<pronunciation_info>
  <pronunciation>공ː산주이</pronunciation>
</pronunciation_info>

2-e-ⅰ. `<pronunciation>`

낱말의 發音(발음)이 담긴다. 發音(발음)은 한글로 소리나는대로 적힌다.

2-f. `<conju_info>`

낱말의 活用形(활용형)을 담는 껍데기. <word_unit>이 單語(단어)일 境遇(경우)에만 나타나고, <word_type>이 外來語(외래어)일 때는 나타나지 않는다. 그 밖의 境遇(경우)라도 반드시 나타나는 것은 아니다.

例(예)를 들어 【걷다02】의 活用形(활용형)은 다음과 같이 적힌다.

<word>걷다02</word>
<!-- … -->
<conju_info>
  <conjugation_info>
    <conjugation>걸어</conjugation>
  </conjugation_info>
</conju_info>
<conju_info>
  <conjugation_info>
    <conjugation>걸으니</conjugation>
  </conjugation_info>
</conju_info>
<conju_info>
  <conjugation_info>
    <conjugation>걷는</conjugation>
  </conjugation_info>
</conju_info>

TODO: `<origin>`

語源(어원). <word_unit>이 單語(단어)이거나 句(구)인 境遇(경우)에만 나타나며, 그 안에서도 漏落(누락)된 境遇(경우)가 더 많다. ＜ (U+FF1C FULLWIDTH LESS-THAN SIGN) 記號(기호)로 語源(어원)의 經路(경로)를 나타낸다.

《標準(표준)國語(국어)大辭典(대사전)》 일러두기에 있는 〈國語史(국어사) 文獻(문헌) 資料(자료) 出典(출전) 略號(약호) 目錄(목록)〉參考(참고).

《標準(표준)國語(국어)大辭典(대사전)》 일러두기의 〈語源(어원) 情報(정보)〉參考(참고).

“어깨番號(어깨번호)”는 아마도 “superscript number”를 옮긴 말로 보이지만, 《標準(표준)國語(국어)大辭典(대사전)》에서의 役割(역할)은 同(동)綴(철)異義(이의)語(어)(homographs)의 區別(구별)하는 番號(번호)(homonym number)이다. 이러한 番號(번호)는 꼭 위添字(위첨자)로 表記(표기)해야 하는 것은 아닐 수 있고, 實際로(실제로) 英美(영미)圈(권)의 辭典(사전)은 大體로(대체로) 아래添字(아래첨자)(subscript)로 表記(표기)하는 境遇(경우)가 더 많으므로, 언제나 위添字(위첨자)로 表記(표기)될 것을 想定(상정)하는 “어깨番號(어깨번호)”라는 말을 “homonym number”의 뜻으로 쓰는 것은 아주 適切(적절)하지는 않다. 하지만 《標(표)國(국)大(대)》의 編纂(편찬)陣(진)이 고른 말이므로 一旦(일단)은 여기서도 그에 따르기로 한다. ↩︎
《標準(표준)國語(국어)大辭典(대사전)》의 漢字(한자) 字體(자체) 指針(지침)이 있을 것이나, 外部(외부)로 明示(명시)된 바는 없다. 《康熙字典(강희자전)》의 字體(자체)를 바탕으로 한, 臺灣(타이완)의 正體(정체)나 香港(샹강)의 繁(번)體(체), 日本(일본)의 舊(구)字體(자체)에 가까운 字體(자체)로 推定(추정)된다. ↩︎

標準國語大辭典 XML 데이터 포맷

<item>

1. <target_code>

2. <word_info>

2-a. <word>

2-b. <word_unit>

2-c. <word_type>

2-d. <original_language_info>

2-d-ⅰ. <original_language>

2-d-ⅱ. <language_type>

2-e. <pronunciation_info>

2-e-ⅰ. <pronunciation>

2-f. <conju_info>

TODO: <origin>