[B! 920 unicode] satoschiのブックマーク

satoschi id:satoschi

920 unicodeに関するsatoschiのブックマーク (127)

Unicodeとのつきあい方
テキストデータは，コンピュータ上におけるデータの中心的存在である。そして文字コードは，テキストデータの基盤となるものである。本稿では，文字コードについてのあまり知られていない基礎知識や，Unicodeの抱える実用上の問題点について紹介する。
satoschi 2018/04/04
00 ARCHIVE

000 論文

92 CHARSET

920 unicode
リンク
RFC 8369: Internationalizing IPv6 Using 128-Bit Unicode
This RFC was published on the Independent Submission stream. This RFC is not endorsed by the IETF and has no formal standing in the IETF standards process. Independent Submission H. Kaplan Request for Comments: 8369 128 Techno logy Category: Informational 1 April 2018 ISSN: 2070-1721 Internationalizing IPv6 Using 128-Bit Unicode Abstract It is clear that Unicode will eventually exhaust its supply o
satoschi 2018/04/03
90 文字

92 CHARSET

920 unicode
リンク
Unicodeと異体字とフォントについて調べてみた - Qiita
はじめに外字について色々調べているうちに、自分自身がUnicodeや異体字について、ちっとも分かっていないということが分かりました。そこで、調べた内容をまとめてみました。情報の密度よりも、文字コードやフォントに関わるときの最低限の知識として、またはCheatsheetとして読み返せる内容としてまとめたつもりです。誤った内容があればご指摘頂けると幸いです。 JIS97 JIS漢字コードはJISが規定した文字集合。俗にJIS漢字コードというと以前はJIS97を指し、正確には「JIS X 0208:1997」という規格である。 6,879個の図形文字を規定。漢字は第一水準と第二水準を搭載。基本的には、区と点で表現し区点コードによって配置している。区点コードは全角文字（非漢字含む）の定義であり、半角文字は含まれていない。区点コードのような文字集合の中での配置番号を「コードポイント」と言う。
satoschi 2017/12/25
*あとでよむ

92 CHARSET

920 Adobe-Japan

920 ASCII

920 IVS

920 JISX0208

920 JISX0213

920 SHIFT-JIS

920 unicode

900 異体字
リンク
ISO/IEC 10646:2017発行 | スラド IT
ISO/IEC 10646の第5版が、無事に発行されたとの連絡をいただいた。NHKニュースは、どうも本質的なところを伝え切れていない気がするが、要は半年前に発行されたUnicode 10.0のISO版が、やっと発行されたということだ。規格全体がISO Freely Available Standardsからダウンロード可能だが、PDFで2702ページもあるので注意すること。なお、戸籍統一文字のうち106870は、今回のISO/IEC 10646:2017から漏れてしまっており、今後U+9FEEあたりに緊急追加をおこなう予定である。 IPAは変体仮名の国際規格化も進めており、ISO/IEC 10646の追補版として2018年3月末までに発行される見込みだという。これが完了すれば、漢字、変体仮名全ての国際規格化が完了することになるようだ。
satoschi 2017/12/25
90 文字

91 漢字

92 CHARSET

920 unicode
リンク
Google Noto Fonts_Noto Sans CJK JP（Googleの日本語フォント）
Noto is a collection of high-quality fonts in more than 1,000 languages and over 150 writing systems.
satoschi 2017/12/20
62 FONT

930 Phag パスパ文字

93 WRITING SYSTEM

920 unicode

92 CHARSET

90 文字
リンク
三点リーダーの位置をOpenTypeフォントでいい感じにする…… - cockscomblog?
僕は三点リーダー「…」が好きで、ついつい使ってしまいます……。この三点リーダーですが、日本語では（仮想ボディの）中央に並び、欧文ではベースライン上に並べるのが一般的です。一方で昨今のWeb媒体などでは、日本語の文章であっても三点リーダーがベースライン上に並んでいる場合も多くみられます。どちらかといえばベースライン上に並んでいるのに慣れてしまった諸氏も少なくないのではないでしょうか……。基本的に、コンピュータ上で三点リーダーがどの位置に表示されるかは、フォントによって決まっています。三点リーダーのUnicodeにおける名前は “HORIZONTAL ELLIPSIS” といって、U+2026 のコードポイントに割り当てられています。このコードポイントに対応するグリフがどのようにデザインされているかが問題になります*1。実際に複数のフォントを見比べてみるとわかりますが、“HORIZONTAL
satoschi 2017/12/16
61 TYPOGRAPHY

610 DTP

62 FONT

90 文字

900 約物

92 CHARSET

920 unicode
リンク
HTML文書は文字エンコーディングUTF-8でなければなりません - 水底の血
さよならレガシーエンコーディング。文字エンコーディング宣言が存在するかどうかにかかわらず、文書のエンコードに使用される実際の文字エンコーディングはUTF-8でなければならない。 4.2.5.5 文書の文字エンコーディングを指定する - HTML Standard 日本語訳 Require utf-8 when specifying character encoding by sideshowbarker · Pull Request #3091 · whatwg/htmlにより、HTMLで使用できるエンコーディングはUTF-8のみとなりました。これにより、古いHTMLでは許容されていた、Shift_JIS、ISO-2022-JP、EUC-JP、UTF16LEといった文字エンコーディングは適合するHTMLではなくなりました。すでにNu Html CheckerでUTF-8以外の文字エンコー
satoschi 2017/10/10
72 WEB DESIGN

720 HTML5

92 CHARSET

920 unicode
リンク
Mac用のATOKで―(U+2015)を入力する方法
Mac用のATOKで―(U+2015)を単語登録しても，確定すると—(U+2014)になってしまいます。この現象の原因と解決策です。「WindowsのUnicodeを使用する」にチェックを入れればU+2015を入力できるようになりますが，それによる副作用が波ダーシ(U+301C, U+FF5E)などに現れます。
satoschi 2017/06/23
610 DTP

90 文字

92 CHARSET

920 unicode

920 SHIFT-JIS
リンク
Unicode 10.0.0
Unicode® 10.0.0 2017 June 20 (Announcement) Version 10.0.0 has been superseded by the latest version of the Unicode Standard. This page summarizes the important changes for the Unicode Standard, Version 10.0.0. This version supersedes all previous versions of the Unicode Standard. A. Summary B. Technical Overview C. Stability Policy Update D. Textual Changes and Character Additions E. Conformance
satoschi 2017/06/22
92 CHARSET

920 unicode
リンク
Unicode 10.0.0、リリースされる | スラド
昨日（6月20日）付でUnicode 10.0.0がリリースされたとの連絡を、日本時間の今日（6月21日）にいただいた。今回のリリースでは8518字が追加されていて、うちCJK統合漢字拡張Fが7473字（U+2CEB0～U+2EBE0）、変体仮名が285字（U+1B002～U+1B11E）の追加である。私（安岡孝一）個人としては、これで戸籍統一文字と住民基本台帳ネットワーク文字がほぼ一段落したのがありがたいが、5月23日・24日の日記にも書いたとおり、多少、問題が積み残しとなってしまった。また、絵文字の追加（U+1F900～U+1F9E6）や、「BITCOIN SIGN」の追加（U+20BF）は、今後、微妙な禍根を残す気がしないでもない。まあ、とりあえずは、戸籍統一文字と住基統一文字のIVS提案を、早急に進めてもらうべきかしら。
satoschi 2017/06/21
92 CHARSET

920 unicode

ya 安岡孝一
リンク
JavaScript における文字コードと「文字数」の数え方 | blog.jxck.io
Intro textarea などに入力された文字数を、JS で数えたい場合がある。ここで .length を数えるだけではダメな理由は、文字コードや JS の内部表現の話を理解する必要がある。多言語や絵文字対応なども踏まえた上で、どう処理するべきなのか。それ自体は枯れた話題ではあるが、近年 ECMAScript に追加された機能などを交えて解説する。なお、文字コードの仕組みを詳解すること自体が目的では無いため、BOM, UCS-2, Endian, 歴史的経緯など、この手の話題につき物な話の一部は省くこととする。 1 文字とは何か Unicode は全ての文字に ID を振ることを目的としている。例えば 😭 (loudly crying face) なら 0x1F62D だ。 1 つの文字に 1 つの ID が割り当てられているのだから、文字の数を数える場合は、この ID の
satoschi 2017/03/03
72 WEB DESIGN

720 javascript

90 文字

92 CHARSET

920 unicode
リンク
Unicodeにあるハイフン/マイナス/長音符/波線/チルダのコレクション | hydroculのメモ
Unicodeにあるハイフン/マイナス/長音符/波線/チルダのコレクション 2015/06/18 Unicodeにある文字の中からハイフンのような横棒と波線を集めてみました。複数あるのはわかっていたつもりでしたが、こんなにたくさんあるとは思いませんでした。横線に関しては、ハイフンや長音符(カタカナの長音記号)、罫線など、線が横に延びているものです。縦方向や斜めの線は除きます。ほとんど横線だけどほんのちょっとだけ斜め(主観)になっているものは含みます。点線や矢印、線が2つ以上に分かれているものは除きます。途中で曲がっているものも除きます。横線が上の方だったり下の方だったり、太さが途中で変わるものも含めています。波線に関しては、横方向の線が、直線ではなくS字カーブになっているもので、縦や斜めのS字を除きます。 S字カーブを超えて複雑な曲線も除いています。ただ、文字の名前に “wave” と
satoschi 2015/06/10
610 DTP

61 TYPOGRAPHY

90 文字

92 CHARSET

920 unicode
リンク
SYMBL (◕‿◕) Symbols, Emojis, Characters, Scripts, Alphabets, Hieroglyphs and the entire Unicode
Top Symbols ❤ ♫ ☎ • ° ♨ ✈ ✣ ☏ ■ ☀ ➑ ✂ ☑ ✉ ☼ ☆ ✄ ✔ ✆ — ☁ ★ ♕ ✘ № ‰ ♠ ✪ ✝ ╳ © … ♥ ✰ † ✎ ® ¶ ♦ ✧ ‡ ✍ ™ ❆ ♣ ✦ ◑ ♀ ℮ ❅ ♤ ♡ ♪ ♂ ·
satoschi 2013/06/11
綺麗なユニコードキャラクターテーブル。

92 CHARSET

920 unicode

07 SOFTWARE

070 WEBアプリ＆サービス
リンク
IVS本へのツッコミ・第3章編 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
最後まで続ける気力があるかどうかわからないままはじめた『Unicode IVS/IVD入門』（田丸健三郎、小林龍生）への突っ込みシリーズだが、今回、第3章についてまとめたことで、ゴールが見えたかなというかんじ*1。 p.58 3.2.2 文字について「3.2.2」→「3.1.2」。 p.59 表3-1に、変更された符号位置を列挙します。変更された符号位置を列挙しているのは「表3-1」だけではなく、「表3-1、表3-2、表3-3」。「靱」のUCS符号位置は「U+8ACC」ではなく「U+9771」。「靭」のUCS符号位置は「U+8ACC」ではなく「U+976D」。 P.60 「表3-1 入れ替えられた22組」に「槙／槇」が入っているが、これは「表3-2 JIS X 0208:1983で追加された符号位置との入れ替え4組」のほう。逆に表3-1に入るべき「桧／檜」が、表3-2に入っている
satoschi 2013/04/18
92 CHARSET

920 unicode

920 IVS

91 漢字
リンク
先生怒らないからリュウミンは手を挙げなさい - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
IVSファンの皆さん、こんにちは。いえ、ぜんぜんファンとかじゃないですから。『Unicode IVS/IVD入門』（田丸健三郎、小林龍生）の目玉と言えるのが、表2-7の「Windows 8におけるJIS X 0208:1990字形と異体字セレクター」だよね。そうなんですか？ Microsoftの人が執筆しているIVS本なんだから、焦点は当然Windows 8のIVS対応。皆さんそこが知りたいわけでしょ？なるほど。そこで、この表2-7に突っ込んでみよう、と。やっぱり突っ込むんだ……。表のタイトルは大切だから、しっかり頭に入れておくといいぞ。「Windows 8におけるJIS X 0208:1990字形と異体字セレクター」だ。はいはい。Windows 8ではIVSをどのように駆使して「Vistaで変更される以前のMS明朝のグリフ」を表示するのか……ってことですね。でさ、「字形
satoschi 2013/04/15
02 BOOK

020 和書

92 CHARSET

920 unicode

920 IVS

91 漢字
リンク
《Unicode/CJK統合漢字》漢字部首検索
Unicode/CJK統合漢字漢字部首検索
satoschi 2013/04/13
07 SOFTWARE

070 WEBアプリ＆サービス

92 CHARSET

920 unicode
リンク
IVS本へのツッコミ・付録の「文字コード表」編 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
『Unicode IVS/IVD入門』（田丸健三郎、小林龍生）へのツッコミ第2弾。この本は、巻末に付録として2つの文字コード表を掲載しており、ページ数では全体の約半分に及ぶのだが、これらの表にもいろいろ問題があるように思う。「USC」が215回出現 2つの文字コード表のうち「文字符号対応表（CP932とJIS文字コード）」（pp.218-325）のほうから見ていくこととする。まず、全ページで（100ページ以上に渡って）「UCS」が「USC」になっている。フォントの問題「IPAmj明朝」欄の表示に使われているのはIPAmj明朝ではなくIPAex明朝だと思う（下図を参照）。ちょっとわけがわからない。「IPAmj明朝」欄の0x02から0x1b（制御文字領域）に記号や罫線素片が入っているが、IPAmj明朝にもIPAex明朝にも、このような文字は入っていない。フォールバックで別のフォン
satoschi 2013/04/11
92 CHARSET

920 unicode

920 IVS

02 BOOK

020 和書
リンク
IVS本に容赦なく突っ込みまくるNAOIさん
発行されたばかりの「Unicode IVS/IVD入門（日経BP社）」に突っ込むNAOIさん。誤植どころか「これ校正校閲してないんじゃないの？」と疑われるような間違いが続々と…
satoschi 2013/03/23
*FAVORITE

*バグ

91 漢字

92 CHARSET

920 IVS

900 異体字

920 unicode
リンク
文字コードチェッカー
テキスト,xml,htmlファイルを選択してください(複数選択可能)。文字コードはUTF-8のみ有効ですアップロードされたテキストの使用文字を集計して文字コードを表示します。CSVでダウンロードもできます。使用文字の範囲や意図しない文字が含まれていないか等のチェックにご利用ください。 ※サーバに送信されたファイルはその場で破棄されます。集計情報はログとして保存されます。以下表示サンプル
satoschi 2013/02/27
07 SOFTWARE

070 WEBアプリ＆サービス

92 CHARSET

920 unicode
リンク
Unicodeがこの10年で普及して…
漢字の話とアラビア文字／インド系文字の話が混在してすみません。現在Unicodeは実用されている文字をほとんど符号化して、新規の追加文字は昔の文字が大きな比重を占めています。複雑な用字系の表示環境も整って特殊絵文字で皆遊んでいる。しかし10年ほど前には全然状況は違っていたわけで……。
satoschi 2012/12/28
91 漢字

92 CHARSET

920 unicode
リンク
1 2 3 4 5 6 7 次のページ

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx