*

sed で連続した複数の空行を1つにまとめる

公開日: : 最終更新日:2014/07/16 パソコン

前日の記事「 WSH で初めてのプログラミング 」で行った作業ですが、ちょっと不満があったのでやり直し。

プログラムではなく、データ自体の問題。

6000以上ある個別のテキストファイルのうちのかなりのものが重複しているのですが、改行が1つ余分に入っているだけで同じファイルとは認識されず、ほぼ同じデータが最終データに大量に混入します。

そこでまたいろいろ考えたのですが、たしか sed(ストリームエディタ)で昔やったことがあるな、と。

sed マニュアル

調べてみるとありました。

/^$/{
N
/^\n$/D
}

 

上の sed 用コマンドで、複数個の連続した改行(空の行)を1つに縮められます。

> sed –f commandfile < file1 >file2

の書式を使って簡単に終了。

もちろん1個1個こんなことはしておらず、DOS用のsedコマンドを使ったためバッチファイルと組み合わせて一括で処理してしまいました。

前日の結果よりも 500個近い重複ファイルが排除され、ずいぶんスリムになりました。

上は DOS で行ったのでめんどくさいですが、Linux なら sed  も標準で装備していますし、強力なシェルスクリプトもありますので、もっと簡単。

上の sed 用コマンドを commandfile というファイルにしておいて次のようなシェルスクリプトを端末から走らせれば、テキストファイルが 6000個だろうと 6000万個だろうと一発ですんでしまいます。

 

#!/bin/bash

shori_files=”$(find /tmp/shorizen -name *.txt)”
for file in $shori_files
do
    sed -f commandfile < $file >  /temp/shorigo $file
done

###

 

関連記事

画像診断メモノート

  画像診断メモノートですが、知り合いから「ウイルスバスターをインストールしたマシン

記事を読む

Windows の ReadyBoost

最近は SSD を積んでいるパソコンが増えているので、ほとんど不要になったものに Windows の

記事を読む

WordPress 2度目のハング

このブログは Wordpress を使っているのですが、昨日からログインできなくなっていました。

記事を読む

20倍ズームデジカメ買ったぞ

PENTAX デジタルカメラ Optio VS20(ノーブルブラック)160

記事を読む

Cyberlink 製 Media Espresso 6

 地デジ録画ではファイルサイズがでかい。  CM カットがきれいにできるようになったら、次

記事を読む

自宅メインパソコンHDDが壊れた(4)

「自宅メインパソコンHDDが壊れた(3) teamviewer でスーイスイ」でスイスイ行くはず

記事を読む

Windows Home Server 2011 ご到着

Microsoft Home Server 2011 日本語 DSP版 DV

記事を読む

Outlook って「外から丸見え」

* ここの読者の中でマイクロソフトのメーラーの Outlook なんか使っている人はまずいない

記事を読む

Windows10 発表

Microsoft は昨日 2014年9月30日にプレスイベントを開催し、次期 Window

記事を読む

Ultimate edition 4.2 lite 日本語版 インストールしてみた

ライブCDの部屋から、Utimate edition 4.2 lite の日本語版をいただきまし

記事を読む

Message

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

Google Workspace はいかが?

Google Workspace というサービスは名前だけ知っていたの

Ryzen5 ミニPC 購入

また ミニPCをアマゾンで注文。 「インテルは逝ってる」ようなの

「pCloud」というクラウドストレージサービス

pCloud というクラウドストレージサービスが Youtube で紹

イラン・イスラエル戦争

イスラエルがイランを攻撃してから数日しか経っていませんが、イランは戦闘

SUV は嫌い

先日、愛車(2017年式)の点検に行ってきました。 半日かかるの

→もっと見る

  • アクセスカウンター
PAGE TOP ↑