*

sed で連続した複数の空行を1つにまとめる

公開日: : 最終更新日:2014/07/16 パソコン

前日の記事「 WSH で初めてのプログラミング 」で行った作業ですが、ちょっと不満があったのでやり直し。

プログラムではなく、データ自体の問題。

6000以上ある個別のテキストファイルのうちのかなりのものが重複しているのですが、改行が1つ余分に入っているだけで同じファイルとは認識されず、ほぼ同じデータが最終データに大量に混入します。

そこでまたいろいろ考えたのですが、たしか sed(ストリームエディタ)で昔やったことがあるな、と。

sed マニュアル

調べてみるとありました。

/^$/{
N
/^\n$/D
}

 

上の sed 用コマンドで、複数個の連続した改行(空の行)を1つに縮められます。

> sed –f commandfile < file1 >file2

の書式を使って簡単に終了。

もちろん1個1個こんなことはしておらず、DOS用のsedコマンドを使ったためバッチファイルと組み合わせて一括で処理してしまいました。

前日の結果よりも 500個近い重複ファイルが排除され、ずいぶんスリムになりました。

上は DOS で行ったのでめんどくさいですが、Linux なら sed  も標準で装備していますし、強力なシェルスクリプトもありますので、もっと簡単。

上の sed 用コマンドを commandfile というファイルにしておいて次のようなシェルスクリプトを端末から走らせれば、テキストファイルが 6000個だろうと 6000万個だろうと一発ですんでしまいます。

 

#!/bin/bash

shori_files=”$(find /tmp/shorizen -name *.txt)”
for file in $shori_files
do
    sed -f commandfile < $file >  /temp/shorigo $file
done

###

 

関連記事

Netac M.2 SSD 250GB 購入

M.2 SSD の外付けケースを購入したものの、手元に余っている M.2 SSD はないので、取り敢

記事を読む

DELL Vostro260S 逝く

2011年7月に新品で買った DELL Vostro260S が昨日壊れました。 いや、壊したのか

記事を読む

Nikon デジタルカメラ COOLPIX B500 衝動買い

Nikon デジタルカメラ COOLPIX B500 光学40倍ズーム 1602

記事を読む

できるポケット+ クラウドコンピューティング 3時間でわかる次世代ITの実像 / 小林 祐一郎

できるポケット+ クラウドコンピューティング 3時間でわかる次世代ITの実像 小

記事を読む

できるポケット 使って覚える HTML&CSS の基本がマスターできる本 / 佐藤和人

できるポケット 使って覚える HTML&CSS の基本がマスターできる本

記事を読む

ヤフオクで中古HDD 5個ゲット

* ここ数日、パソコンの自作熱がちょっと高まったので、2日にかけてヤフオクで中古 HDD を

記事を読む

また安いデジカメ見つけた 20倍ズームなのに 1cm 近接マクロ

PENTAX デジタルカメラ Optio VS20(ノーブルブラック)160

記事を読む

SSD 240GB SATA3 2.5インチ 内蔵型 Imation イメーション 海外リテール品 A320-SATA3-240GB

【3/10限定★抽選で2人に1人最大100%Pバック(要エン

記事を読む

USB 簡易電圧・電流チェッカー / 普通の人は不要だけど

ルートアール USB 簡易電圧・電流チェッカー VA同時表示・充電最適化回路内蔵

記事を読む

ちゃんと起きろよ 寒い日の HDD

CORSAIR Force Series GT CSSD-F60GBGT-B

記事を読む

Message

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

2026-04-21 アメリカ株強し

アメリカ株が過去最高を更新しています。

棒状 九州博多とんこつラーメン サンポー食品

サンポー食品の棒状 九州博多とんこつラーメンです。 即席

イランそろそろ終わりそう

次のアメリカとの交渉が近づいていますが、そろそろイランが降伏しそうな気

神戸居留地 果汁100% アップルジュース 185g 30 缶

1本あたり 85円とかなり安いので買ってみました。 味は

【FX】フラクタルを使ったスキャルピング手法

https://www.youtube.com/watch?v=RBv

→もっと見る

  • アクセスカウンター
PAGE TOP ↑