特定の改行コードだけ削除する

Question

CSVファイルを変換するPGを書きたいのですが、
変換したいCSVには改行コード
と
が混在しています。

改行コード
はそのままにして

だけ削除したいのですが
どのように書けばよろしいのでしょうか。

Perlは5.12.2です。

よろしくお願いします。

nora1962 · Accepted Answer

0x0d→0x0d 0x0d0x0a→0x0d0x0a 0x0a→削除なら binmode STDIN; binmode STDOUT; while(){ if ( / $/ ){ } elsif ( / $/ ){ chomp; } print $_; } として「foo.pl」 perl foo.pl < 入力ファイル > 出力ファイル

nora1962 · Answer

#5です。
念のため
は\x0d

は\x0a
にしておいてください。

N60-BASIC · Answer

まず改行文字の表現について誤解されている部分があると思いますので説明しますが、
C言語等での「
」とPerlでの「
」は意味や挙動が異なります。

おそらく質問者さんは「」をCR（\x0D）、「
」をLF（\x0A）と勘違いされていると
思いますが、Perlの場合、「
」は「（内部処理における論理的な）改行文字」という
意味であって、特定の文字コードを表す文字ではありません。
実際の動作では、入出力の時点で「
」が表す文字コードはプラットフォームOSによって
異なります。

＝Perlでの「
」が示す文字コード＝
UNIX系（Cygwin含む） ～ LF（\x0A）
Windows（ActivePerl） ～ CR+LF（\x0D\x0A）
Mac ～ CR（\x0D）

従って、質問者さんのPerl実行環境が上記のいずれかはわかりませんが
改行コードの文字種をプラットフォームに依存せず処理したい場合は、文字コードを直接記述する必要があります。

例として、OSプラットフォームの標準に合わせて改行コードを統一するには
以下のような処理が一般的です。（以下、$strが「改行を含む文字列」だとします）

$str =~ s/\x0D\x0A|\x0D|\x0A/
/g; # CR+LF／CR／LFをすべて
に統一する

# 大崎さんの「Perlメモ」がこのあたり詳しいです。
# http://www.din.or.jp/~ohzaki/perl.htm#CRLF_Unify

今回の質問の場合は、LF（\x0A）を置換ではなく削除したいという意図だと思いますので、
$str =~ s/\x0A//g; # LFを削除する
$str =~ s/\x0D/\x0D\x0A/g; # CRをCR+LFに置換する
でうまくいくのではないでしょうか。OSにも依存しないはずです。

（以下、ご参考まで）
もしOS標準とは異なる改行コードで入出力する必要がある場合、
Perl5.8以降であればPerlIOによる改行文字種の指定ができます。

my $str = "...
...
"; # 改行コードを含む文字列
open(my $fh, '>:lf', $filename) or die($!); # どんなOS上でも改行コードLFで出力するように指定
print $fh $str; # 
がLFとして出力される
close($fh);

ただし（出力の場合）改行をあらかじめ
に統一しておく必要があります。
改行コードが混在していない前提であれば、ファイル入力においても
「WindowsでLFを
として読み込む」といったことも可能です。
ただし、今回の例では入力する改行コードが混在しているため利用できません。

Tacosan · Answer

システムに依存する可能性はありますが, 手元の Windows7 で試した限りでは「ファイル全体をまとめて読込まないとダメ」かもしれません.

$/ = undef;
while (<>) {
s/(?:[^]|^)\K
//g;
print;
}
とやって
aaa
abcde^M
xyxxy^M
bsrufhw
というファイル (^M は , 行末に全て 
 付き) を処理すると
aaaabcde
xyxxy
bsrufhw
になります... あぁ, 出力の方もそれなりに何か指定しないとダメかも.

kuzumiHK · Answer

改行の混在を再現できていないので、
動作確認はできていませんが、

$hoge =~ s/([^]+|^)
/$1/g;

こんな感じでいかがでしょうか。

の前にがないか
の前は行頭の場合、
だけ削除

SAYKA · Answer

([^]+)

とか・・・

特定の改行コードだけ削除する

0x0d→0x0d

#5です。

まず改行文字の表現について誤解されている部分があると思いますので説明しますが、

システムに依存する可能性はありますが, 手元の Windows7 で試した限りでは「ファイル全体をまとめて読込まないとダメ」かもしれません.

改行の混在を再現できていないので、

この回答への補足

([^\r]+)\n

この回答への補足

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング