[B! utf-8] tsupoのブックマーク

tsupo id:tsupo

utf-8に関するtsupoのブックマーク (12)

XSS対策パッチを当ててもRailsに残る脆弱性 - 岩本隆史の日記帳（アーカイブ）
どのような脆弱性か先日書いた「Rails 2系のXSS脆弱性がRuby 1.9では影響なしとされる理由」という記事に、奥さん（id:kazuhooku）より、下記のブックマークコメントをいただきました。たとえばブログの場合、誰かに壊れたUTF-8を含むコメントを書き込まれちゃうと、そのブログ全体にアクセスできなくなる(最新コメント一覧に出るから)んじゃないか。XSSが発生しないだけで脆弱性があることは変わらないはてなブックマーク - kazuhookuのブックマーク / 2009年9月26日まったくおっしゃる通りです。アプリケーションの構成によっては、サービス自体が提供できなくなる可能性があります。このような脆弱性を何とよぶのでしょうか。すでに統一的な呼称があるのかどうか、私は知りません。サービス不能という観点からは広義のDoS脆弱性といえるのかもしれません。追記（2009-0
tsupo 2009/09/29
「Rails 2＋SQLite 3という構成の場合、私の検証では、アプリ開発者がバリデーションロジックを加えない限り、不正なUTF-8シーケンスを含むデータが登録できてしまいました」

security

ruby

rails

xss

utf-8

technology

summarySite
リンク
UTF-8の冗長なエンコードとは何で、なんでそれがセキュリティ的に危ないのか？を文字コード知識レヴェル3くらいの凡プログラマが考えてみる - tohokuaikiのチラシの裏
何故かあたり前にならない文字エンコーディングバリデーション | yohgaki's blog ってあるように、いまいち文字コードの不正な判定による危険性ってのが分かってない。 SJISの問題は、（2/3）SQLインジェクションを根絶！セキュア開発の極意 - 第5回■注目される文字コードのセキュリティ問題：ITproの記事がわかりやすかった。というか、やっぱりPHP使ってると誰でも一度は「なんじゃこの『￥』は？」って思うもんなんで。なるほど、確かに↓の図のように「あるバイト」が2つの意味を持つっていう文字コード形態はやばいんだなと。 EUC-JPはそんなことはしないで、1つのバイトには1つの意味しか取らせない。だけど、これでも文字化けが起こることがある。経験的には、「マルチバイトをXX文字で切り落としたい」とかやった場合。ちゃんと文字コードを判定してくれるPHPでいえばmb_subst
tsupo 2009/09/11
「UTF-8では特定の文字を複数の形式のバイト列で表現できる」 / コメント欄参照

security

utf-8
リンク
ScanNetSecurity - Black Hat Japan 2008 未踏の文字コード×セキュリティを開拓長谷川陽介氏
2008年10月9日に開催されたBlack Hat Japan 2008で、「趣味と実益の文字コード攻撃」というテーマでネットエージェント株式会社の長谷川陽介氏が発表した。長谷川氏はアプリケーション側の文字コード処理に関するバグを利用したり、文字コードや文字を巧みに操作することで、Webアプリケーションなどに対して攻撃を行うことが可能だと示した。 ●Unicodeへの移行期に起きている混乱 Unicodeは世界で使われる全ての文字を使える文字コードという発想で作られたもので、日本では従来はEUC-JPやShift_JISなどの文字コードが使われていたが、徐々にUnicodeに移行している。その移行期である現在、従来の文字コードとUnicodeとの差違がセキュリティ的な問題を生んでいる。安全な文字列の確認や危険な文字列の検出といった、文字列を比較して処理するというセキュリティの
tsupo 2009/02/22
CVE-2008-2938「Apache Tomcat UTF-8 Directory Traversal Vulnerability」という、UTF-8の冗長表現を利用したディレクトリ・トラバーサルの脆弱性 / UTF-7を利用したクロスサイトスクリプティングの脆弱性 / ディビジョンスラッシュ

security

utf-8

utf-7

RLO
リンク
UTF-8 の全角ハイフンが Perl の正規表現にマッチしなくて悩んだ
UTF-8 の全角ハイフンが Perl の正規表現にマッチしなくて悩んだ 2008-05-01-3 [Programming] UTF-8 の全角ハイフン（便宜上こう呼びます）を Perl の正規表現でマッチさせようとしてはまりました。全角ハイフンってのは「−」です。やろうとしたことは、テキストファイル（UTF-8）を読み込んで、その中の全角ハイフンを半角ハイフンに変換するという作業。 Perl スクリプトはこんな感じ。 use utf8; use open ':utf8'; binmode STDIN, ":utf8"; binmode STDOUT, ":utf8"; while (<>) { s/\p{Hyphen}/-/g; # または s/−/-/g; print; } 入力「１２−２３４−５」に対して、出力「１２-２３４-５」を想定。しかし一部の全角ハイフンだけが半角
tsupo 2008/05/02
『「ef bc 8d」と「e2 88 92」の２種類が混じっていました』

utf-8

コード変換

programming

culture

computer
リンク
Matzにっき(2007-03-12)「あいうえお」はインド由来
<< 2007/03/ 1 1. [Ruby] Rubyist Magazine - Rubyist Magazine 0018 号 2. ストレートタイプのスマートフォン「NOKIA E61」レポート 3. ITmedia エンタープライズ：TopCoderで世界と渡り合う日本IBMの異才 - 夷藤勇人 4. My Sleepless Nights in the Big Apple: Apple、サブノート市場へ再参入へ 5. ITmedia Biz.ID：失敗しないプロジェクトマネジメント -- Appleやはてな、Googleに学ぶ3つのヒント 6. 平成19年度「情報大航海プロジェクト（モデルサービスの開発と実証）」に係る委託先の公募について 7. [言語] PyCon 2007 Review 8. [Ruby] deep_science:Re:バザール「オープンソース、そして「R
tsupo 2007/03/18
インド方言の一つBrahmi語の文字一覧。ちょっと母音が多いがおおむね「あいうえお」の順番に並んでいる。他のインド語でも同様の順序らしい。子音も「あかさたな〜」に近い → そ、そーだったのか

ことば

50音順

culture

life
リンク
- 教えて！goo
tsupo 2007/03/14
IEのみ、確認画面から「戻る」ボタンを押すと(「戻る」をクリックすると項目を入力する申込みフォームに戻ります)その申込みフォームが今度は文字化けします → (少なくともIE6では)これはどうしようもないです

UTF-8

Shift_JIS

検索窓

文字コード

referer

JavaScript

typePad

Internet

computer
リンク
subtech - Bulknews::Subtech - Fix dodgy utf-8 bytes
はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28
tsupo 2007/02/13
「すでに utf-8 なバイト列を latin-1 と解釈して utf-8 に二重エンコードすることで起きる文字化け」、TypePad(というかココログ)でサービス開始当初から頻繁に起きてるので、早いとこ直して欲しかったり

utf-8

二重エンコード

文字化け

perl

Internet

computer
リンク
UTF-8で変換できない機種依存文字を置換する
Summary UTF-8 のページから (株) やローマ数字の I などの文字をメールで送信すると，文字化けする．文字化けしそうな文字を，ad hoc に機種依存しない文字に変換する．ローマ数字もカッコで括るか，スペースを挿入したほうが良いかも． Source function replaceText($str){ $arr = array( /* --- 0x2100 - 0x2138 (文字種記号) --- */ // 0x2100 - 0x210F '\xE2\x84\x80' => 'a/c', '\xE2\x84\x81' => 'a/s', '\xE2\x84\x82' => 'C', '\xE2\x84\x83' => '?', '\xE2\x84\x84' => '?', '\xE2\x84\x85' => 'c/o', '\xE2\x84\x86' => 'c/u
tsupo 2006/06/21
実は、bookey の内部でもよく似たことをやってます

charset

UTF-8

機種依存文字

Internet

computer
リンク
UTF-8 vs. ISO-10646 : 404 Blog Not Found
2006年03月11日13:07 カテゴリLightweight Languages一日一行野郎 UTF-8 vs. ISO-10646 これだとLiberalなUTF-8ですね。 [を] UTF-8 の文字にマッチする正規表現 UTF-8の文字にマッチする正規表現の素直版。新旧、というのか、LiberalなUTF-8とStrictなUTF-8の違いは、RFC2044とRFC2279を見ればはっきりします。要はU+11000より上を認めるかどうかということです。今のところUnicode.orgの定義では、U+0000 - U+10FFFF しか認めていないので、そちらの定義に従うと、むしろこの正規表現はさらに短く $RE_UTF8CHAR_STRICT = qr/(?:[\x00-\x7f]|[\xC0-\xDF][\x80-\xBF]|[\xE0-\xEF][\x80-\xBF]{2}
tsupo 2006/03/12
UTF-8の正規表現 → 半年くらい前に欲しかったw

UTF-8

regularExpression

文字集合
リンク
YappoLogs: iアプリでUTF-8なHTTP通信をする方法
iアプリでUTF-8なHTTP通信をする方法ずいぶん古いネタですが、頼まれ事されたのでコード公開。 iアプリの仕様としては、内部のエンコードがUCS-2という形式になっています。 HTTP通信時にストリームをかますとSJIS←→UCS-2変換を行ってくれる仕組みがあるので iモードコンテンツと同じノリで、iアプリ向けのサーバプログラムがかけます。ただ、それ以外のエンコードの変換は行ってくれないのでサーバ側で吐き出すデータはSJISしか使えないのです。もしくはUCS-2を直接吐き出して、生ストリームで読み書きするとか。大昔にiアプリで動くBlogクライアントを書いたのですが、サーバ側のエンコードはUTF-8なのです。 iアプリの機能ではUTF-8←→UCS-2なんて事はやってくれません。で、どうしたかと言うと。。。生ストリームでHTTP通信をして、ループでまわしてUTF-8←→U
tsupo 2006/01/31
UCS-2をUTF-8に変換しながらサーバに送信するコード

iAppli

http

utf-8

ucs2

codeConvert

iMode

mobile

programming
リンク
ecto for Windows 2.3
Kung Fu is a United States action-adventure martial arts drama set in the American Old West. It follows the journey of Kwai Chang Caine, Shaolin priest looking for his dead American father’s family after being forced to flee China. The series starred David Carradine in the role of adult Kwai Chang Caine. Radame Pera played the young Chaine in flashback scenes, with Keye Luke and Philip Ahn as the
tsupo 2005/11/25
I'm working on ecto 3, but there were a bunch of bug fixes I really wanted to get in an official release since not everyone uses or wants to use (unlo

ecto

blogClient
リンク
CJKV日中韓越情報処理セミナー - huixingの日記
CJKV日中韓越情報処理というセミナーがあったらしく，その内容はと言えば目新しいものが何もなさそうだが，一つだけ気になった点が，docomoの顔文字が標準化の阻害になっているということ。utf-8の普及が進まないのも携帯がそれに対応しないからというような話もある。標準化には携帯がネックになりそうだ。 DoCoMoの絵文字の弊害が，思ったよりも大きいのを感じた．実は，これに関して私を含めて何人も正式にアクションを起こしたことがあるがダメだった…何故か？（←これは，よい子への宿題．ただし，調べた結果は決して公開してはいけない点に注意）携帯メーカキャリア各社にもお願いしたいことがあります。早く多言語対応して下さい。容量の問題もあるでしょうから、購入後にフォントやIMEをダウンロードして、自分でセッティングするかたちでもいいのでお願いします。ワタクシ、Blogサービスやツールの多言語対応があまり
tsupo 2005/06/02
docomoの顔文字が標準化の阻害になっている。utf-8の普及が進まないのも携帯が対応しないからという話も。標準

CJKV

unicode

utf-8
リンク
1