テキストファイル内の「誤改行」を修文したい！

Question

perl は初心者です。よろしくお願いします。

★無名ハッシュを作り、リファレンスをハッシュに格納する方法を採用して、試行錯誤しています。

ファイル内容は、論理行の一行毎に行頭が ”AA” のように””で囲まれています。(例文後述)

しかし、行の中には「誤改行」されて正常な行が分割されていて、改行され行頭が””で囲まれていない行が存在します。（正常な行が２分割され、前半部分と後半部分が別な行文となっている）
この「誤改行」を、直前にある「元の正常な分割された前半の行文」と連結して、新たな正常な行としてファイルを修正し新規テキストファイルに書きこみたい。この際、分割されていた２個の「行文」は不要になったので、新規テキストファイルには書き込まない。
この修文作業が、途中まで出来ましたが最後の不要な行の削除が出来ないので、困っています。
------------------------------------------------------------
対象とするテキスト内容　(下記の行番号と文字列は例示です)

1. "ABCD",あいうえおかきくけこ１２３４５６７８９　XXXXXXXXXXXX
2. "EFGH",
3. さしすせそたちつてと９８７６５４３　XXXXXXXXXXXX                    # ←「誤改行」の行です。
4. "IGKL",なにぬねのはひふへほ１２３４５６７８９　XXXXXXXXXXX
5. "MNOP",まみむめもやいゆえよ９８７６５４３２１　XXXXXXXXXXX
6. "QRST",
7. らりるれろわいうえを１２３４５６７８９　XXXXXXXXX                     # ←「誤改行」の行です。
8.
9.
------------------------------------------------------------------
期待する修文の出力結果 (行内容は、元の行番号の順番と違っても結構です)

1. "ABCD",あいうえおかきくけこ１２３４５６７８９　XXXXXXXXXXXX
2. "EFGH",さしすせそたちつてと９８７６５４３　XXXXXXXXXXXX                 
3. "IGKL",なにぬねのはひふへほ１２３４５６７８９　XXXXXXXXXXX
4. "MNOP",まみむめもやいゆえよ９８７６５４３２１　XXXXXXXXXXX
5. "QRST",らりるれろわいうえを１２３４５６７８９　XXXXXXXXX  
6.
7.
-----------------------------------------
私作成したスクリプトの要約は、
  #  対象ファイルを一行づつ読み込む．
  #  末尾の改行を削除
  # 誤改行の場合を正規表現で探す。$ng_gyou に格納
  # その他正常行は$ok_gyou, に格納する。
  # $falag に誤改行の場合は０、正常な改行の場合は１を格納
  # 誤改行の場合の行番号を$count_ng に、正常な改行の場合の行番号を$count_ok に、全部の行番号は$flag_1に格納する。
# 無名ハッシュを作り，リファレンスを $ref に格納する
$ref = {'nomber' => $flag_1,   
'ng' => $ng_gyou,
'ok' => $ok_gyou,
'ngcount' => $count_ng,
'okcount' => $count_ok,
'flag' => $flag_ok   
            };                      
$WORD{$flag_1} = $ref;  # nomber:$flag_1をキーにして，リファレンスをハッシュ:%WORDに格納

# このハッシュ「%WORDを」 読み込んで、処理しました。
foreach $flag_1 ( sort { $a <=> $b }  keys %WORD) {  
　　 if($one->{ok} == 0) {  
       ・・・・・・・・・・・・・・・・・
# 細部は、長くなるので省略します。（ 誤改行の連結までは成功しましたが、・・・・・・？？）

以上、質問内容が冗長になりましたが、どうか御教示下さい。

osamuy · Accepted Answer

こことか：
「値に改行コードを含む CSV形式を扱う」
http://www.din.or.jp/~ohzaki/perl.htm#CSVwithCRLF

改行を含んだCSVデータの読み方の話だとしたらですが。
(サンプル7行目「安全高度爆発(safe height burst)」にダブルクォートがついてないのは、typoと予想)。

そうでなく、「先頭が"始まりでなければ前行に追加」というだけなら、こんなのとか：

my $cr = '';
while (<> ){ print $cr if /^"/; $cr = chomp == 0 ? '' : $/; print; }
print $cr;

参考URL：http://www.ideone.com/IPF7C

notnot · Answer

＞「あらゆるケースに対応したコードを書くのは大変」なので、コード作成は諦めた方が良いのでしょうか！

あらゆるケースに対応することをあきらめれば簡単に書けます。
「行頭が " で始まらない行があれば、前の行に続ける」
だけであれば、私がNo2に書いた sed スクリプトでも良いし、Perlなら、

$x="";
while(<>){ chomp($x) if /^[^"]/; print $x; $x=$_; }
print "
";

末尾の空行も消えちゃいますが。

t0133262601 · Answer

例だけを見ていると

行の末にカンマがある場合が誤改行とすれば、
一行読み込み、最後がカンマではなければ、書き出す
カンマであれば、次の行を読んで合わせて、書き出す
というのはどうでしょうか。

一行が複数に誤改行があるようでしたら、
行末がカンマでない行を読むまで、読み込んだものを累積して書き出す
というような事でもよいかと思いますが。

notnot · Answer

NO1のお礼を見る限り、「誤改行」というよりは、「データに改行が含まれたCSV」ですね。
CSVは、" " で囲んだ中に改行を入れても良いのです。誤りではありません。

CSVを扱うには、自分であらゆるケースに対応したコードを書くのは大変なので、ライブラリを使うと良いでしょう。
http://search.cpan.org/search?query=CSV&mode=all

Tacosan · Answer

#1 のお礼に書いてある例文で, 「期待する結果」なるものがどのような処理の結果なのか「正確に」書いてみてください.

shiren2 · Answer

そのまま書いてみました。
動作確認済みです。

#!/usr/bin/perl
use strict;

my @list;

while(<DATA>){
#行末の改行を除去
chomp;
#行頭の数字を除去
s/^\d+\. *//;
#配列に入れておく
push @list, $_;
}

for(my $i=0; $i<@list; $i++){
#行頭の数字は1から始まる
printf("%d. %s", $i+1, $list[$i]);

#異常な行ならば次の行を取り出して繋げる
if($list[$i] =~ /,$/){
printf("%s", splice(@list, $i+1, 1));
}

#改行を出力
printf("
");
}

__DATA__
1. "ABCD",あいうえおかきくけこ１２３４５６７８９　XXXXXXXXXXXX
2. "EFGH",
3. さしすせそたちつてと９８７６５４３　XXXXXXXXXXXX
4. "IGKL",なにぬねのはひふへほ１２３４５６７８９　XXXXXXXXXXX
5. "MNOP",まみむめもやいゆえよ９８７６５４３２１　XXXXXXXXXXX
6. "QRST",
7. らりるれろわいうえを１２３４５６７８９　XXXXXXXXX
8.
9.

notnot · Answer

この程度はsedで出来そうなのでやってみました。

下記の内容をファイル x に書いて、sed -n -f x 入力ファイル > 出力ファイル で。

1{
h
d
}
/^[^"]/{
H
x
s/\
//
x
d
}
x
p
${
x
p
}

osamuy · Answer

こんな感じ?

while ( <> ){ chomp if /^".+?",$/; print; }

参考URL：http://www.ideone.com/ZsrbL

テキストファイル内の「誤改行」を修文したい！

＞「あらゆるケースに対応したコードを書くのは大変」なので、コード作成は諦めた方が良いのでしょうか！

例だけを見ていると

NO1のお礼を見る限り、「誤改行」というよりは、「データに改行が含まれたCSV」ですね。

#1 のお礼に書いてある例文で, 「期待する結果」なるものがどのような処理の結果なのか「正確に」書いてみてください.

こことか：

そのまま書いてみました。

この程度はsedで出来そうなのでやってみました。

こんな感じ?

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング