タグ

unicodeに関するrgfxのブックマーク (7)

  • ゼロ幅文字にエンコードした隠し情報で、文書をリークしたメンバーを特定 | 秋元@サイボウズラボ・プログラマー・ブログ

    とある会員制掲示板からの文書の流出に困った運営者が、ユニコードの見えない文字「ゼロ幅文字(Zero-Width characters)」を使って流出させたユーザーを特定した、という話が出ていました。 数年前の話、Tom さんが所属していた競技ビデオゲームのチームでは、ログインが必要なプライベートの掲示板を使って連絡していました。その掲示板に書かれた秘密情報や戦術に関する重大アナウンスなどがしばしば掲示板外のウェブにコピペされ、チームにとって大きな問題となっていたそうです。 外部ユーザーの攻撃で中身が漏れたというよりは、メンバーの誰かがコピーしているのでは、と考えた Tom さんは、当時気になっていたユニコードのゼロ幅文字を使ったトリックを仕掛けたそうです。 ユーザーを特定する情報を、見えない文字に変換して埋め込む ログイン中のログインユーザーのユーザーIDを、一定のルールによってゼロ幅文字

    ゼロ幅文字にエンコードした隠し情報で、文書をリークしたメンバーを特定 | 秋元@サイボウズラボ・プログラマー・ブログ
    rgfx
    rgfx 2018/04/10
    この手のゼロ幅文字を使ってbrainf**kとかできそうよな(誰得)(いやまC&C鯖からマルウェア化した拡張へのコマンド送信とか) http://nicowiki.com/%E7%A9%BA%E7%99%BD%E3%83%BB%E7%89%B9%E6%AE%8A%E8%A8%98%E5%8F%B7.html
  • CJK Type Blog | CJK Fonts, Character Sets & Encodings.

    What in the world could オントロ (ontoro) and グスーム (gusūmu) possibly mean? (If you wait a few seconds, a hint will flash in the animated GIF above.) Continue reading… The UTC #160 meeting took place last week at Microsoft’s HQ in Redmond, Washington. For CJK enthusiasts, the big news is that the UTC accepted CJK Unified ideographs Extension G (aka IRG Working Set 2015), which includes 4,939 characters

    rgfx
    rgfx 2017/11/28
    Unicode&OpenType実装デモつーか、フォント自体のデザインよりも「Unicode&OpenTypeのスペックを活かしたフォント・グリフ実装とはこのようなものである」という2017年度版リファレンスの発表が主な目的のように思える。
  • 絵文字を支える技術の紹介 - Qiita

    絵文字を扱う上で知っておくと良いかもしれないことをまとめてみました。 Ruiさんの記事を見て、「EmojiはSurrogate Pair以外にも、色々とおもしろい技術があるんですよ〜」思って書いてみました。 なお、書いた人はAndroidの人間なので、特に表記していない場合は主にAndroid上での動作のことを書いてます。 またQiita初めてなので読みにくい部分等がありましてもご容赦ください。 サロゲートペア(Surrogate Pairs) このエントリーを書くきっかけにもなったサロゲートペア。なぜこれが導入されたかの経緯は、Ruiさんのブログエントリーに譲るとして、技術的な解説をします。 サロゲートペアは、U+0000..U+FFFFに収まりきらなかった範囲のUnicodeコードポイント(U+10000..U+10FFFF)を、なんとか16bitでエンコードしようとして導入されました

    絵文字を支える技術の紹介 - Qiita
    rgfx
    rgfx 2017/11/16
    国旗んとこ、そういうことになってたの。。/「グラフィムクラスターは、これがないとハングルやタイ語で大変なことになってしまいます。」あ、あれ、そうなんだ…ああ…ああーーー…。。。
  • 絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama

    UnicodeのUTF-16エンコーディングではほとんどの文字(コードポイント)は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語

    絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama
    rgfx
    rgfx 2017/11/13
    せやなあ。
  • 「Unicode 6.0」が策定、絵文字が国際標準に

    rgfx
    rgfx 2010/10/14
  • Unicode 6.0.0

    Unicode® 6.0.0 Released: 2010 October 11 (Announcement) Version 6.0.0 has been superseded by the latest version of the Unicode Standard. Unicode 6.0.0 is a major version of the Unicode Standard. This page summarizes the important changes for the Unicode Standard, Version 6.0.0. In the discussion below, shortened references to "Unicode 6.0" or "Version 6.0" specifically refer to Version 6.0.0. Cont

    rgfx
    rgfx 2010/10/13
  • Unicode Codepoint Chart

    Unicode Codepoint Chart U+0000 to U+007F: Basic Latin U+0080 to U+00FF: Latin-1 Supplement U+0100 to U+017F: Latin Extended-A U+0180 to U+024F: Latin Extended-B U+0250 to U+02AF: IPA Extensions U+02B0 to U+02FF: Spacing Modifier Letters U+0300 to U+036F: Combining Diacritical Marks U+0370 to U+03FF: Greek and Coptic U+0400 to U+04FF: Cyrillic U+0500 to U+052F: Cyrillic Supplement U+0530 to U+058F:

    rgfx
    rgfx 2010/01/08
    予想に反して、あなたのデバイスではこれらの文字が表示されてますでしょうか?
  • 1