電子書籍の厳選無料作品が豊富!

こんにちは! Perlの漢字コード(UTF8)の扱いについて詳しい方,おしえていただけないでしょうか?

数年前に自作した,ファイル加工用のシェルスクリプトを久しぶりに取り出してみたら,訳が分からなくなってしまいました。
シェルスクリプトは,大きなファイル(文字コードはUTF-8)の中から特定の表現を削って小さくする物で,例えば次のような行が並んでいます。

perl -pe 's/\343\200\220\.*?\343\200\201//g' | \

困っているのは,文字コードをどうやって決めたか思い出せない点にあります。
新しい記述を足したいのですが,文字コードの指定の方法をすっかり忘れているのに気付いて,呆然としているところです。

以前はネット上にある,どこかのエンコーダーを使ったように記憶していますが。
うまく見つけらずにいます。
ご存じの方,ご教示いただけると大変ありがたいです。。

(試行錯誤して,UTF-8の16進6桁の漢字コードから,2桁ずつとって10進に直す,のは違うらしいことが分かりました。(;^_^A)

A 回答 (1件)

最近のPerl(5.8以降?)だったら、このような「3バイト」ではなく「1文字」として処理する方法があります。


こういう1ラインな書き方だとちょっとめんどうですが。
http://www.rwds.net/kuroita/program/Perl_unicode …

> 2桁ずつとって10進に

\343 など、3桁の数字 は8進数です
    • good
    • 0
この回答へのお礼

> \343 など、3桁の数字 は8進数です

kmeeさま,大変ありがとうございます!

これで,先に進めます (^-^)

お礼日時:2012/03/10 20:22

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!