*

sed で連続した複数の空行を1つにまとめる

公開日: : 最終更新日:2014/07/16 パソコン

前日の記事「 WSH で初めてのプログラミング 」で行った作業ですが、ちょっと不満があったのでやり直し。

プログラムではなく、データ自体の問題。

6000以上ある個別のテキストファイルのうちのかなりのものが重複しているのですが、改行が1つ余分に入っているだけで同じファイルとは認識されず、ほぼ同じデータが最終データに大量に混入します。

そこでまたいろいろ考えたのですが、たしか sed(ストリームエディタ)で昔やったことがあるな、と。

sed マニュアル

調べてみるとありました。

/^$/{
N
/^\n$/D
}

 

上の sed 用コマンドで、複数個の連続した改行(空の行)を1つに縮められます。

> sed –f commandfile < file1 >file2

の書式を使って簡単に終了。

もちろん1個1個こんなことはしておらず、DOS用のsedコマンドを使ったためバッチファイルと組み合わせて一括で処理してしまいました。

前日の結果よりも 500個近い重複ファイルが排除され、ずいぶんスリムになりました。

上は DOS で行ったのでめんどくさいですが、Linux なら sed  も標準で装備していますし、強力なシェルスクリプトもありますので、もっと簡単。

上の sed 用コマンドを commandfile というファイルにしておいて次のようなシェルスクリプトを端末から走らせれば、テキストファイルが 6000個だろうと 6000万個だろうと一発ですんでしまいます。

 

#!/bin/bash

shori_files=”$(find /tmp/shorizen -name *.txt)”
for file in $shori_files
do
    sed -f commandfile < $file >  /temp/shorigo $file
done

###

 

関連記事

Crucial V4 128GB SSD

Crucial V4 128GB 2.5inch SSD SATA3Gbps 9

記事を読む

Windows10 でファイルマネージャー「反応なし」

自宅のメインPC はふるさと納税でもらった Windows10 マシンでメモリは 8GB ありますが

記事を読む

録画マシンの入れ替え

 地デジマシンを7月24日に即席で作りましたが、不都合がいっぱい。  従来の 2号機に PT2

記事を読む

no image

HP B110a 使用感

HP B110a 使用感   HP Photosma

記事を読む

自宅の WindowsXP PC 昇天

自宅で WindowsXP で動いていた自作 PC(愛称 WhiteBase) がついに逝きました。

記事を読む

またまた 80GB 中古HDD 2台ゲットだ

1台800円(初期値)で出ていた日立製ハードディスクに入札していたら、その後誰もセリ相手が現れず

記事を読む

魅力的なCPU Athlon の復活 / Athlon 5350 /安価で4コア TDP25W

Athlon という CPU Athlon という AMD社製の CPU が昔ありました。

記事を読む

Winserver よく固まる

4つの MT4 を稼働している Winserver のサーバーですが、多くの時間が下の図のような感じ

記事を読む

PT2 WOWOW 設定

  自宅のTVでは WOWOW に加入し、主にカミサンが観ています。 私にはチャン

記事を読む

パナソニック製 BD-Rメディア 30枚入り

Panasonic ブルーレイディスク 日本製 録画用4倍速 25GB(単層

記事を読む

Message

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

楽天SCHD順調(筋書き通り?)

https://www.youtube.com/watch?v=o9V

NF日本高配当70 から GS日本株・プラス(通貨分散コース)へ

超高配当(現時点では)の「GS日本株・プラス(通貨分散コース)」をとり

GS日本株・プラス(通貨分散コース)本日より購入開始

投資信託の「GS日本株・プラス(通貨分散コース)」を本日から開始します

【FX】MACD をトリガーに平均足をフィルタに使ったトレンドフォローEA

MACD をトリガーに、平均足をフィルタに使ったトレンドフォローEA

QRMI と QQQI

Nasdaq100 を使ったカバードコールETF には、 Q

→もっと見る

  • アクセスカウンター
PAGE TOP ↑