テキストデータは,コンピュータ上におけるデータの中心的存在である。そして文字コードは,テキストデータの基盤となるものである。本稿では,文字コードについてのあまり知られていない基礎知識や,Unicodeの抱える実用上の問題点について紹介する。
テキストデータは,コンピュータ上におけるデータの中心的存在である。そして文字コードは,テキストデータの基盤となるものである。本稿では,文字コードについてのあまり知られていない基礎知識や,Unicodeの抱える実用上の問題点について紹介する。
This RFC was published on the Independent Submission stream. This RFC is not endorsed by the IETF and has no formal standing in the IETF standards process. Independent Submission H. Kaplan Request for Comments: 8369 128 Technology Category: Informational 1 April 2018 ISSN: 2070-1721 Internationalizing IPv6 Using 128-Bit Unicode Abstract It is clear that Unicode will eventually exhaust its supply o
はじめに 外字について色々調べているうちに、自分自身がUnicodeや異体字について、ちっとも分かっていないということが分かりました。そこで、調べた内容をまとめてみました。 情報の密度よりも、文字コードやフォントに関わるときの最低限の知識として、またはCheatsheetとして読み返せる内容としてまとめたつもりです。 誤った内容があればご指摘頂けると幸いです。 JIS97 JIS漢字コードはJISが規定した文字集合。俗にJIS漢字コードというと以前はJIS97を指し、正確には「JIS X 0208:1997」という規格である。 6,879個の図形文字を規定。漢字は第一水準と第二水準を搭載。基本的には、区と点で表現し区点コードによって配置している。区点コードは全角文字(非漢字含む)の定義であり、半角文字は含まれていない。 区点コードのような文字集合の中での配置番号を「コードポイント」と言う。
ISO/IEC 10646の第5版が、無事に発行されたとの連絡をいただいた。NHKニュースは、どうも本質的なところを伝え切れていない気がするが、要は半年前に発行されたUnicode 10.0のISO版が、やっと発行されたということだ。 規格全体がISO Freely Available Standardsからダウンロード可能だが、PDFで2702ページもあるので注意すること。なお、戸籍統一文字のうち106870は、今回のISO/IEC 10646:2017から漏れてしまっており、今後U+9FEEあたりに緊急追加をおこなう予定である。 IPAは変体仮名の国際規格化も進めており、ISO/IEC 10646の追補版として2018年3月末までに発行される見込みだという。これが完了すれば、漢字、変体仮名全ての国際規格化が完了することになるようだ。
僕は三点リーダー「…」が好きで、ついつい使ってしまいます……。この三点リーダーですが、日本語では(仮想ボディの)中央に並び、欧文ではベースライン上に並べるのが一般的です。一方で昨今のWeb媒体などでは、日本語の文章であっても三点リーダーがベースライン上に並んでいる場合も多くみられます。どちらかといえばベースライン上に並んでいるのに慣れてしまった諸氏も少なくないのではないでしょうか……。 基本的に、コンピュータ上で三点リーダーがどの位置に表示されるかは、フォントによって決まっています。三点リーダーのUnicodeにおける名前は “HORIZONTAL ELLIPSIS” といって、U+2026 のコードポイントに割り当てられています。このコードポイントに対応するグリフがどのようにデザインされているかが問題になります*1。実際に複数のフォントを見比べてみるとわかりますが、“HORIZONTAL
さよならレガシーエンコーディング。 文字エンコーディング宣言が存在するかどうかにかかわらず、文書のエンコードに使用される実際の文字エンコーディングはUTF-8でなければならない。 4.2.5.5 文書の文字エンコーディングを指定する - HTML Standard 日本語訳 Require utf-8 when specifying character encoding by sideshowbarker · Pull Request #3091 · whatwg/htmlにより、HTMLで使用できるエンコーディングはUTF-8のみとなりました。これにより、古いHTMLでは許容されていた、Shift_JIS、ISO-2022-JP、EUC-JP、UTF16LEといった文字エンコーディングは適合するHTMLではなくなりました。すでにNu Html CheckerでUTF-8以外の文字エンコー
Unicode® 10.0.0 2017 June 20 (Announcement) Version 10.0.0 has been superseded by the latest version of the Unicode Standard. This page summarizes the important changes for the Unicode Standard, Version 10.0.0. This version supersedes all previous versions of the Unicode Standard. A. Summary B. Technical Overview C. Stability Policy Update D. Textual Changes and Character Additions E. Conformance
昨日(6月20日)付でUnicode 10.0.0がリリースされたとの連絡を、日本時間の今日(6月21日)にいただいた。今回のリリースでは8518字が追加されていて、うちCJK統合漢字拡張Fが7473字(U+2CEB0~U+2EBE0)、変体仮名が285字(U+1B002~U+1B11E)の追加である。 私(安岡孝一)個人としては、これで戸籍統一文字と住民基本台帳ネットワーク文字がほぼ一段落したのがありがたいが、5月23日・24日の日記にも書いたとおり、多少、問題が積み残しとなってしまった。また、絵文字の追加(U+1F900~U+1F9E6)や、「BITCOIN SIGN」の追加(U+20BF)は、今後、微妙な禍根を残す気がしないでもない。 まあ、とりあえずは、戸籍統一文字と住基統一文字のIVS提案を、早急に進めてもらうべきかしら。
Intro textarea などに入力された文字数を、JS で数えたい場合がある。 ここで .length を数えるだけではダメな理由は、文字コードや JS の内部表現の話を理解する必要がある。 多言語や絵文字対応なども踏まえた上で、どう処理するべきなのか。 それ自体は枯れた話題ではあるが、近年 ECMAScript に追加された機能などを交えて解説する。 なお、文字コードの仕組みを詳解すること自体が目的では無いため、BOM, UCS-2, Endian, 歴史的経緯など、この手の話題につき物な話の一部は省くこととする。 1 文字とは何か Unicode は全ての文字に ID を振ることを目的としている。 例えば 😭 (loudly crying face) なら 0x1F62D だ。 1 つの文字に 1 つの ID が割り当てられているのだから、文字の数を数える場合は、この ID の
Unicodeにあるハイフン/マイナス/長音符/波線/チルダのコレクション 2015/06/18 Unicodeにある文字の中からハイフンのような横棒と波線を集めてみました。複数あるのはわかっていたつもりでしたが、こんなにたくさんあるとは思いませんでした。 横線に関しては、ハイフンや長音符(カタカナの長音記号)、罫線など、線が横に延びているものです。縦方向や斜めの線は除きます。ほとんど横線だけどほんのちょっとだけ斜め(主観)になっているものは含みます。点線や矢印、線が2つ以上に分かれているものは除きます。途中で曲がっているものも除きます。横線が上の方だったり下の方だったり、太さが途中で変わるものも含めています。 波線に関しては、横方向の線が、直線ではなくS字カーブになっているもので、縦や斜めのS字を除きます。 S字カーブを超えて複雑な曲線も除いています。ただ、文字の名前に “wave” と
Top Symbols ❤ ♫ ☎ • ° ♨ ✈ ✣ ☏ ■ ☀ ➑ ✂ ☑ ✉ ☼ ☆ ✄ ✔ ✆ — ☁ ★ ♕ ✘ № ‰ ♠ ✪ ✝ ╳ © … ♥ ✰ † ✎ ® ¶ ♦ ✧ ‡ ✍ ™ ❆ ♣ ✦ ◑ ♀ ℮ ❅ ♤ ♡ ♪ ♂ ·
最後まで続ける気力があるかどうかわからないままはじめた『Unicode IVS/IVD入門』(田丸健三郎、小林龍生)への突っ込みシリーズだが、今回、第3章についてまとめたことで、ゴールが見えたかなというかんじ*1。 p.58 3.2.2 文字について 「3.2.2」→「3.1.2」。 p.59 表3-1に、変更された符号位置を列挙します。 変更された符号位置を列挙しているのは「表3-1」だけではなく、「表3-1、表3-2、表3-3」。 「靱」のUCS符号位置は「U+8ACC」ではなく「U+9771」。 「靭」のUCS符号位置は「U+8ACC」ではなく「U+976D」。 P.60 「表3-1 入れ替えられた22組」に「槙/槇」が入っているが、これは「表3-2 JIS X 0208:1983で追加された符号位置との入れ替え4組」のほう。 逆に表3-1に入るべき「桧/檜」が、表3-2に入っている
IVSファンの皆さん、こんにちは。 いえ、ぜんぜんファンとかじゃないですから。 『Unicode IVS/IVD入門』(田丸健三郎、小林龍生)の目玉と言えるのが、表2-7の「Windows 8におけるJIS X 0208:1990字形と異体字セレクター」だよね。 そうなんですか? Microsoftの人が執筆しているIVS本なんだから、焦点は当然Windows 8のIVS対応。皆さんそこが知りたいわけでしょ? なるほど。 そこで、この表2-7に突っ込んでみよう、と。 やっぱり突っ込むんだ……。 表のタイトルは大切だから、しっかり頭に入れておくといいぞ。「Windows 8におけるJIS X 0208:1990字形と異体字セレクター」だ。 はいはい。Windows 8ではIVSをどのように駆使して「Vistaで変更される以前のMS明朝のグリフ」を表示するのか……ってことですね。 でさ、「字形
『Unicode IVS/IVD入門』(田丸健三郎、小林龍生)へのツッコミ第2弾。この本は、巻末に付録として2つの文字コード表を掲載しており、ページ数では全体の約半分に及ぶのだが、これらの表にもいろいろ問題があるように思う。 「USC」が215回出現 2つの文字コード表のうち「文字符号対応表(CP932とJIS文字コード)」(pp.218-325)のほうから見ていくこととする。 まず、全ページで(100ページ以上に渡って)「UCS」が「USC」になっている。 フォントの問題 「IPAmj明朝」欄の表示に使われているのはIPAmj明朝ではなくIPAex明朝だと思う(下図を参照)。 ちょっとわけがわからない。 「IPAmj明朝」欄の0x02から0x1b(制御文字領域)に記号や罫線素片が入っているが、IPAmj明朝にもIPAex明朝にも、このような文字は入っていない。 フォールバックで別のフォン
漢字の話とアラビア文字/インド系文字の話が混在してすみません。 現在Unicodeは実用されている文字をほとんど符号化して、新規の追加文字は昔の文字が大きな比重を占めています。複雑な用字系の表示環境も整って特殊絵文字で皆遊んでいる。しかし10年ほど前には全然状況は違っていたわけで……。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く