*

sed で連続した複数の空行を1つにまとめる

公開日: : 最終更新日:2014/07/16 パソコン

前日の記事「 WSH で初めてのプログラミング 」で行った作業ですが、ちょっと不満があったのでやり直し。

プログラムではなく、データ自体の問題。

6000以上ある個別のテキストファイルのうちのかなりのものが重複しているのですが、改行が1つ余分に入っているだけで同じファイルとは認識されず、ほぼ同じデータが最終データに大量に混入します。

そこでまたいろいろ考えたのですが、たしか sed(ストリームエディタ)で昔やったことがあるな、と。

sed マニュアル

調べてみるとありました。

/^$/{
N
/^\n$/D
}

 

上の sed 用コマンドで、複数個の連続した改行(空の行)を1つに縮められます。

> sed –f commandfile < file1 >file2

の書式を使って簡単に終了。

もちろん1個1個こんなことはしておらず、DOS用のsedコマンドを使ったためバッチファイルと組み合わせて一括で処理してしまいました。

前日の結果よりも 500個近い重複ファイルが排除され、ずいぶんスリムになりました。

上は DOS で行ったのでめんどくさいですが、Linux なら sed  も標準で装備していますし、強力なシェルスクリプトもありますので、もっと簡単。

上の sed 用コマンドを commandfile というファイルにしておいて次のようなシェルスクリプトを端末から走らせれば、テキストファイルが 6000個だろうと 6000万個だろうと一発ですんでしまいます。

 

#!/bin/bash

shori_files=”$(find /tmp/shorizen -name *.txt)”
for file in $shori_files
do
    sed -f commandfile < $file >  /temp/shorigo $file
done

###

 

関連記事

Revo Center RC111 おうちサーバー

【送料無料】 Acer/エイサー Revo Center RC111(RC1

記事を読む

Linux が世界制覇!

元ネタ> Linuxの世界制覇が完了:反オープンソース・コミュニティに賭けるのが愚かな理由 U

記事を読む

KIOXIA EXCERIA 480GB SSD

【キオクシア kioxia】キオクシア SSD 480GB

記事を読む

ハードディスクの故障率(メーカー別)

元ネタ⇒ ハードディスクはどこのメーカー製が一番壊れにくいのかが2万5000台の調査結果でつ

記事を読む

Windows2000 で Java7 がインストールできない

* 愛用の Windows2000 マシン(これが一番読影がスムースに行く)に突然 Java

記事を読む

Pioneer BD-ROM / BDC-207DBK

BDC-207DBK Blu-rayコンボドライブ ブラックベゼル Pi

記事を読む

Windows7 延命計画

日経PC21 2018年 7 月号 日経BP社 2018-05-24 売り上げラ

記事を読む

遠隔画像診断のビジネスモデル(3)

ビジネスモデルらしくないので、さらに模式図を補完していきます。 * 上段が従来のファイル

記事を読む

整備済み品東芝製ハードディスク届きました

整備済み品東芝製ハードディスク届きましたが、プチプチ封筒に素(す)で 2個の HDD が入ったものが

記事を読む

Microsoft Home Server 2011 日本語 DSP版 DVD 【LANボードセット品】最速導入ハンドブック付

Microsoft Home Server 2011 日本語 DSP版 DV

記事を読む

Message

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

「日本高配当」ETF売却

昨日、2つの ETF を売却。 GX高配当30日株 (235

神田カレーグランプリ 100時間カレーB&R 欧風ビーフカレー

S&B のレトルトカレー。 今日はこれを食べてみまし

中国のハリウッドが大変なことに

https://www.youtube.com/watch?v=GRu

マイクロ波を使って廃プラスチックからナフサを作る

廃プラスチックからマイクロ波を使ってナフサを作るという話があります。

S&B エスビー食品 マンダラビーフマサラカレー

  ヱスビー食品の「神田カレーグランプリ」シリ

→もっと見る

  • アクセスカウンター
PAGE TOP ↑