タグ

utf-8とcomputerに関するtsupoのブックマーク (6)

  • UTF-8 の全角ハイフンが Perl の正規表現にマッチしなくて悩んだ

    UTF-8 の全角ハイフンが Perl の正規表現にマッチしなくて悩んだ 2008-05-01-3 [Programming] UTF-8 の全角ハイフン(便宜上こう呼びます)を Perl の正規表現でマッチさせようとしてはまりました。 全角ハイフンってのは「−」です。 やろうとしたことは、テキストファイル(UTF-8)を読み込んで、 その中の全角ハイフンを半角ハイフンに変換するという作業。 Perl スクリプトはこんな感じ。 use utf8; use open ':utf8'; binmode STDIN, ":utf8"; binmode STDOUT, ":utf8"; while (<>) { s/\p{Hyphen}/-/g; # または s/−/-/g; print; } 入力「12−234−5」に対して、 出力「12-234-5」を想定。 しかし一部の全角ハイフンだけが半角

    UTF-8 の全角ハイフンが Perl の正規表現にマッチしなくて悩んだ
    tsupo
    tsupo 2008/05/02
    『「ef bc 8d」と「e2 88 92」の2種類が混じっていました』
  • Matzにっき(2007-03-12)「あいうえお」はインド由来

    << 2007/03/ 1 1. [Ruby] Rubyist Magazine - Rubyist Magazine 0018 号 2. ストレートタイプのスマートフォン「NOKIA E61」レポート 3. ITmedia エンタープライズ:TopCoderで世界と渡り合う日IBMの異才 - 夷藤勇人 4. My Sleepless Nights in the Big Apple: Apple、サブノート市場へ再参入へ 5. ITmedia Biz.ID:失敗しないプロジェクトマネジメント -- AppleはてなGoogleに学ぶ3つのヒント 6. 平成19年度「情報大航海プロジェクト(モデルサービスの開発と実証)」に係る委託先の公募について 7. [言語] PyCon 2007 Review 8. [Ruby] deep_science:Re:バザール「オープンソース、そして「R

    tsupo
    tsupo 2007/03/18
    インド方言の一つBrahmi語の文字一覧。ちょっと母音が多いがおおむね「あいうえお」の順番に並んでいる。他のインド語でも同様の順序らしい。子音も「あかさたな〜」に近い → そ、そーだったのか
  • - 教えて!goo

    tsupo
    tsupo 2007/03/14
    IEのみ、確認画面から「戻る」ボタンを押すと(「戻る」をクリックすると項目を入力する申込みフォームに戻ります)その申込みフォームが今度は文字化けします → (少なくともIE6では)これはどうしようもないです
  • subtech - Bulknews::Subtech - Fix dodgy utf-8 bytes

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    subtech - Bulknews::Subtech - Fix dodgy utf-8 bytes
    tsupo
    tsupo 2007/02/13
    「すでに utf-8 なバイト列を latin-1 と解釈して utf-8 に二重エンコードすることで起きる文字化け」、TypePad(というかココログ)でサービス開始当初から頻繁に起きてるので、早いとこ直して欲しかったり
  • UTF-8で変換できない機種依存文字を置換する

    Summary UTF-8 のページから (株) や ローマ数字の I などの文字をメールで送信すると,文字化けする. 文字化けしそうな文字を,ad hoc に機種依存しない文字に変換する. ローマ数字もカッコで括るか,スペースを挿入したほうが良いかも. Source function replaceText($str){ $arr = array( /* --- 0x2100 - 0x2138 (文字種記号) --- */ // 0x2100 - 0x210F '\xE2\x84\x80' => 'a/c', '\xE2\x84\x81' => 'a/s', '\xE2\x84\x82' => 'C', '\xE2\x84\x83' => '?', '\xE2\x84\x84' => '?', '\xE2\x84\x85' => 'c/o', '\xE2\x84\x86' => 'c/u

    tsupo
    tsupo 2006/06/21
    実は、bookey の内部でもよく似たことをやってます
  • ecto for Windows 2.3

    Kung Fu is a United States action-adventure martial arts drama set in the American Old West. It follows the journey of Kwai Chang Caine, Shaolin priest looking for his dead American father’s family after being forced to flee China. The series starred David Carradine in the role of adult Kwai Chang Caine. Radame Pera played the young Chaine in flashback scenes, with Keye Luke and Philip Ahn as the

    ecto for Windows 2.3
    tsupo
    tsupo 2005/11/25
    I'm working on ecto 3, but there were a bunch of bug fixes I really wanted to get in an official release since not everyone uses or wants to use (unlo
  • 1