文字を一文字ずつ区切りたい

Question

こんにちは、Perl始めて3か月ほどの大学生です。よろしくお願いします。

Perlにおいて「あいうえお」という文字列があればそれを配列に分けて入れることが最終目標です。
C言語出身なのでPerlにおける配列の概念がよくわからないのですが
$word[0]に「あ」、$word[1]に「い」となるように
もしくは@word[0][0]に「あ」、@word[0][1]に「い」となるようにしたいのです

自分なりに調べてみて
$lineに「abcde」が入っているとすると
my @word;
$word[0] = substr($line,0,1);とした場合
print $word[0]."
";
はうまく「a」を出力することができました
しかし
$line = 'あいうえお';
とすると空白になってしまいました。

したがって
@word = spline(/ /,$line);
foreach(@word){ print $_."
"; }
を試しました
出力結果は
abcde
とどうもうまく分けられていないようでした。

環境はよくわからないのですが
WindowsXPでputtyjp.exeというものを使ってサーバーにアクセスしていて
サーバーはLinuxのRedHatでした
日本語コードは[euc]になっていました
use uft8;　をすると出力時に文字化けを起こします。

手詰まりになってしまいました。解決の糸口となるヒントがあれば教えて下さい。
２バイトごとに無理やり区切ることも考えましたがバイトごとに区切る方法が分からないのとアルファベットは１バイトのような気がするのでやり方がわからなくなっています。

ご指導のほど、よろしくお願いします。

sakusaker7 · Accepted Answer

use encoding は一見便利に見えるけど、落とし穴がそこらじゅうにあるのでお勧めしなかったんですがね。

ドキュメントを見ると
USAGE
    use encoding [*ENCNAME*] ;
        Sets the script encoding to *ENCNAME*. And unless ${^UNICODE} exist
        and non-zero, PerlIO layers of STDIN and STDOUT are set to
        ":encoding(*ENCNAME*)".

        Note that STDERR WILL NOT be changed.

        Also note that non-STD file handles remain unaffected. Use "use
        open" or "binmode" to change layers of those.

という部分があります。
つまり、open で開いたファイルから取ってきた内容についてはそのままでは
use encoding の影響は及びません。
open するときにそのファイルのエンコーディングを指定するか、
binmode でopen 後のファイルハンドルに対して指定します。

#!/usr/bin/perl
use strict;
use warnings;
use Jcode;
use encoding 'euc-jp';

open my $fh, '<:encoding(euc-jp)', 'sample02.txt' or die "Cannnot open sample02.txt : $!"; #分割する文書の取得
my $line = <$fh>;
close $fh;

print Jcode::getcode($line), "
";
print join("
", split(//, $lines));

実行結果:
utf8
こ
ん
に
ち
は
。
お
ひ
さ
し
ぶ
り
で
す
。
こ
れ
で
W
e
b
も
O
K
！

sakusaker7 · Answer

split するときに空白も入れないというのは#1の方のとおりで、
>use uft8;　をすると出力時に文字化けを起こします。
これは出力のエンコーディングを指定してやればよいです。
こんな感じ。

use strict;
use warnings;
use utf8;

use feature ':5.10';
#use Encode qw/encode/;

binmode STDOUT, ':encoding(sjis)';

my $str_ascii = 'abcdefg';
my @chars = split q{}, $str_ascii;

say join(':', @chars);

my $str_kanji = 'こんにちは';
my @kchars  = split q{}, $str_kanji;


#say join(':', map {Encode::encode('sjis', $_)} @kchars);
say join(':', @kchars);


binmode の行がそれです。eucを使っているのなら、'euc-jp' とかに
してみてください。
上記のスクリプトは5.10.0以降でないと動きませんので、5.8.xとかで
動かすのなら適当に修正してください。
#use feature の行を削る
#say を printに変えて、末尾を ,"
"; にする

あ、あとスクリプト全体がutf-8でセーブされてないとだめです。

kodomo55 · Answer

バイト単位ではなく、文字単位で処理する必要があります。
その為には、Perl の内部文字列として扱う為に、
UTF8フラグを立てる必要があります。

また、UTF8 で書いて、use utf8 をした場合、
出力時には UTF8フラグを落とす必要があります。
(例) utf8::encode($result) # 引数が直接変化

# EUC-JP で書いた場合
use encoding 'euc-jp';
my $str = 'あいうえお';
my @result = split //, $str; # １文字ずつなら split でも可

Tacosan · Answer

文字コードの問題はあるかもしれないけど, とりあえず
@word = split(//, $line);
を試してみる. // は間に空白も入れません.

文字を一文字ずつ区切りたい

use encoding は一見便利に見えるけど、落とし穴がそこらじゅうにあるのでお勧めしなかったんですがね。

split するときに空白も入れないというのは#1の方のとおりで、

この回答への補足

バイト単位ではなく、文字単位で処理する必要があります。

文字コードの問題はあるかもしれないけど, とりあえず

この回答への補足

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング