shift-jisでfgetcsv

Question

以下環境でCSVファイルの読み込プログラムを作っていますが、上手くいかないケースがあり困っています。

PHP　5.3.3
サーバー　Linux
読み込むCSVの文字コード　ShiftJIS
phpの文字コード　UTF-8

当然ですが
setlocale(LC_ALL, 'ja_JP.sjis');
の設定はしています。

正常に動くケース
・"(ダブルクォーテーション)で囲んでない場合
・"（ダブルクォーターション）で囲んであるケースのほとんど

正常に動かないケース
・"（ダブルクォーテーション）で囲んであり最後の文字が「部」の場合（他にも有る可能性がありますが現状発見できているのはこれのみ）

$data = getcsv($fileHandler, 0, ',');

とした時に
元データが
"a","テニス部","12345"
の場合
$data[0]→a
$data[1]→テニス部",12345"
となります。
（何故か12345の頭の"はどこかに行きます。）

これが
"a","テニス社","12345"
の場合は
$data[0]→a
$data[1]→テニス社
$data[2]→12345
と求めた結果になります。

また、
a,テニス部,12345
とクォーテーション無しの場合は
$data[0]→a
$data[1]→テニス社
$data[2]→12345
想定通りとなります。

部と"の組み合わせがいけないということはわかりますが何をどうすればいいのか見当がつきません。
Shift-JISの所謂「駄目文字」に部は入っていないですし…。

読み込みCSVは残念ながら、ダブルクォーテーション有りのファイルと無しのファイルが混在しています。（同一ファイル内での混在は無い前提）

どのようにすれば部の文字を含んだファイルを正常に読み込めるでしょうか？
よろしくお願いします。

SortaNerd · Accepted Answer

はっきりしたことは分かりませんが、文字コードがShift_JISと認識されていないように思えます。
欧米製のソフトは大抵、デフォルトの文字コードがLatin-1です。
「部」をLatin-1で見ると「•”」となり、2文字目は「"」とは別ですが、何らかの変換で「"」になりえます。
この辺
「＃ｔヴ鉛株渠券鵠飼諸数」
や、加えてこの辺
「％ｓン遠鞄挙兼酷雌藷嵩」
で同じ状況になればこれが関係していると考えられます。

bm_hiro · Answer

お礼してもらっていたのに、しばらくココ自体を見ていませんでした。
返事が遅くなってすみません。

昔 自分がやったのは結構乱暴な方法です。
CSVの一行の各文字列の中のカンマは事前に全角カンマに置換した上で、半角カンマでexplodeして、各文字列の前後にクォートがあった場合除去する。
という事を自前でやっただけです。

具体的に言うと↓みたいな感じです。

CSV : "てすと,てすと","abc","def"
↓
てすと，てすと
abc
def

文字列の中にクォートが入っていないのは前提でしたので使えた方法ですし、スマートなやり方ではないと思いますし、負荷的にどうなのかも分かりません。

hogehoge78 · Answer

VMware Playerで、似たような環境を作って試してみました。

■OS：CentOS 6.4 (32bit)
■PHP：5.3.3（yum install phpで取得したもの）

質問者さん同様の方法でlocaledefして、sjisを作り、質問にある文字列のみを記載したcsvファイルを作り、
fgetcsvを試してみましたが、同様の症状は発生しませんでした。

何か別の場所に問題がある気がします。
・PHPのバージョン
・OSのバージョン
・コンパイルが正常にいっているのかどうか
・コンパイラのバージョン（C言語のmblenが本当に正しく動いているのか）
気になることは結構色々ありますが、バージョンや特定の組合せによって動かないということであるとどうしようもありません。

上記のことから、文字コードを変更してから取得するなり、自前でパーサを作りなりしたほうが良いかもしれません。

どうしても気になるということであれば、一度VMwareを使うなり、VertualPCやVertualBoxを使うなりして、同じ環境を作った時に同じ現象が起こるのか試してみるしか無いですね。

hogehoge78 · Answer

少し調べた感じですと、C言語のmblen関数で、文字長を取っているというものに成っているようで、

mblen関数は、単純にシステムに設定されているlocale情報に依存して、動作するという挙動のため
setlocaleしないと上手く動かないというもののようです。

つまるところ、setlocaleが上手く言っていないような気がするんですが、
setlocaleで一度ローケルをセットした後に、

<?php

echo locale(LC_ALL, 0);

?>
とすると設定したローケルを返しますが、コレはどの様な値が帰ってきますか？
不正な値をsetlocaleした後は、その設定が反映されず、setlocaleする前のローケルが帰ってくるようなのですが。

現在のPHP5.3.21あたりでいろいろ試していましたが、
・Windows→エラーは出ない（そもそもローケル文字が全然違う）
・さくらサーバ（CentOS）→エラーは出ない

という結果で、もしかしたらphpのバージョンを5.3の最新にしたら解消されるのではないかという気もします。

それと、fgetcsvは、囲い文字のエスケープ文字として、なぜかデフォルトで円マークが指定されています。
これを「"」に変更したらどうなりますか？

bm_hiro · Answer

これは俺個人の意見で古い知識に基づいたものですので聞き流し程度でお願いします。

fgetcsvは その昔 挙動不審疑惑があり、そういうのを見たり自分で体験したりで、使わないようにしてます。

多分、適切に設定してやれば、問題ないのかもしれませんがー

fgetcsv関数内の ある意味ブラックボックス内で処理されることであり、中身が不透明なのが嫌だったので、結局 CSVを自前の関数作って処理したことがあります。
ちゃんとPHPの中身読めば分かることでブラックボックスでも何でもないのですが、自分で読むほどの気力はありません。

duke_kimura · Answer

ちょっと今手元に試す環境がないのとソースが記載されてないので憶測ですが、SJISとCP932(sjis-win)を混同されていて、文字をSJISでエンコードしようとされていませんか？

WindowsからのCSVであれば#1の方の様に'sjis-win'を使用しないと、色々とうまく動かなかった記憶があります。

hogehoge78 · Answer

ja_JP.sjisが、ご利用のOSに存在しない場合は、ソレを追記してやる必要があります。

詳しくは、
http://www.softel.co.jp/blogs/tech/archives/2331

ここで公開されてました。

ただ、環境の依存性が高い為、システムを移行する場合等で問題が発生する可能性があります。

そこで、別のテンポラリファイルに、まるごとutf-8に文字コードを変換したものを作ってそれから再度fgetcsvをする方法がアリます。

<?php
$content = file_get_contents('sjis-no-csv.csv');
$tmp = tmpfile(); //テンポラリファイルの作成(ファイルポインタです)
fwrite($tmp, mb_convert_encoding($content, 'utf-8', 'sjis-win'));
rewind($tmp);
while($row = fgetcsv($tmp, 4096)){
//読み込み処理
var_dump($row);
}
?>

と言った具合に。

ただ、大容量なファイルが読み込まれた時にかなりパフォーマンスが良くないので、逐次読み込み時にそもそも文字コードが変換されてくれば良いのではないか、ということで、
「php://filter」を使って、ストリームフィルタをかましてやれば良いのではないかという方法。

<?php
class sjis_to_utf8 extends php_user_filter{

public function filter($in, $out, &$consumed, $closing){
while($bucket = stream_bucket_make_writeable($in)){
$bucket->data = mb_convert_encoding($bucket->data, 'utf-8', 'sjis-win');
$consumed += $bucket->datalen;
stream_bucket_append($out, $bucket);
}
return PSFS_PASS_ON;
}

}
stream_filter_register('convert.sjis_to_utf8', 'sjis_to_utf8');

$fp = fopen('php://filter/read=convert.sjis_to_utf8/resource=test.csv', 'r');
while($row = fgetcsv($fp, 4096)){
var_dump($row);
}
?>

と言った具合です。
filterに標準で文字コード変換が無いので、sjisをutf8に変換するラッパーを作ってやり、ソレを読み込ませるという方法。
他にも都合の良いやり方なんかは、適当に調べてみて下さい。

作成にあたって参考にしたサイトは、
http://au1.php.net/manual/ja/function.stream-fil …
http://d.hatena.ne.jp/hnw/20090317
http://www.revulo.com/blog/20080304.html

ココらへんです。

shift-jisでfgetcsv

はっきりしたことは分かりませんが、文字コードがShift_JISと認識されていないように思えます。

この回答への補足

お礼してもらっていたのに、しばらくココ自体を見ていませんでした。

VMware Playerで、似たような環境を作って試してみました。

少し調べた感じですと、C言語のmblen関数で、文字長を取っているというものに成っているようで、

この回答への補足

これは俺個人の意見で古い知識に基づいたものですので聞き流し程度でお願いします。

ちょっと今手元に試す環境がないのとソースが記載されてないので憶測ですが、SJISとCP932(sjis-win)を混同されていて、文字をSJISでエンコードしようとされていませんか？

この回答への補足

ja_JP.sjisが、ご利用のOSに存在しない場合は、ソレを追記してやる必要があります。

この回答への補足

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング