*

sed で連続した複数の空行を1つにまとめる

公開日: : 最終更新日:2014/07/16 パソコン

前日の記事「 WSH で初めてのプログラミング 」で行った作業ですが、ちょっと不満があったのでやり直し。

プログラムではなく、データ自体の問題。

6000以上ある個別のテキストファイルのうちのかなりのものが重複しているのですが、改行が1つ余分に入っているだけで同じファイルとは認識されず、ほぼ同じデータが最終データに大量に混入します。

そこでまたいろいろ考えたのですが、たしか sed(ストリームエディタ)で昔やったことがあるな、と。

sed マニュアル

調べてみるとありました。

/^$/{
N
/^\n$/D
}

 

上の sed 用コマンドで、複数個の連続した改行(空の行)を1つに縮められます。

> sed –f commandfile < file1 >file2

の書式を使って簡単に終了。

もちろん1個1個こんなことはしておらず、DOS用のsedコマンドを使ったためバッチファイルと組み合わせて一括で処理してしまいました。

前日の結果よりも 500個近い重複ファイルが排除され、ずいぶんスリムになりました。

上は DOS で行ったのでめんどくさいですが、Linux なら sed  も標準で装備していますし、強力なシェルスクリプトもありますので、もっと簡単。

上の sed 用コマンドを commandfile というファイルにしておいて次のようなシェルスクリプトを端末から走らせれば、テキストファイルが 6000個だろうと 6000万個だろうと一発ですんでしまいます。

 

#!/bin/bash

shori_files=”$(find /tmp/shorizen -name *.txt)”
for file in $shori_files
do
    sed -f commandfile < $file >  /temp/shorigo $file
done

###

 

関連記事

もう非クラウド型遠隔画像診断は使いたくない・・・その理由

* もう時効かな、と思うので書きます。 * ちあきなおみではないが、あれは数年前・・・、私

記事を読む

ADATA製 SSD 256GB ASP600S3-256GM-C

ADATA SSD 256GB 2.5インチ SATA3 6Gb/s MLC採用

記事を読む

コピーコントロールCD(CCCD)について

昨日の記事「アンセム / 寺井尚子」で コピーコントロールCD(CCCD) について述べましたが、補

記事を読む

オフィスファイルの印刷

* .docx などの拡張子を有する Microsoft オフィスのファイルを印刷するのに、L

記事を読む

USBハブが壊れた

パソコンネタではないのですが、多少関連があります。 本日いきなりTV(東芝レグザ)につないだハ

記事を読む

OSが新しくなったらマシンの買い換え?

* 新しい OS が発表されたら、パソコンを買い換える人が多いですね。 OS だけアップグレ

記事を読む

Windows2000 よさらば、Pentium4 よさらば

昨日、高槻遠隔画像診断センターの一番古いPCが壊れました。 IBM Thinkcentre の

記事を読む

CrystalDiskInfo でディスクを調べる

結局あと1台セリ落として、今週は 9台の中古ハードディスクをゲット。 そのうち 3台のハードデ

記事を読む

ハードディスク内の破損場所の位置を表示してくれるツール HD tune

ハードディスク内の破損場所の位置を詳しく示してくれるツールです。 Windows用。

記事を読む

ビジネスセキュリティ by トレンドマイクロ

  トレンドマイクロのアンチウィルスソフトはウィルスバスターだけかと思っていたら、買

記事を読む

Message

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

Gemini で知識をまとめたウェブページを簡単につくる

どういう風に AI を使うか、人によって違います。 ちょこまか調

Meta という Meta の AI

Meta(旧名:Facebook)社の Meta という AI を試用

昆虫由来の食用色素

博物学が好きな人はご存じかもしれませんが、西洋ではコチニールカイガラム

Antigravity で遊ぶ

数日前から Google の AI エージント Antigravity

AXI Select のエッジスコアがついに 70に

一昨日、「プロップファームの AXI Select の なかなか上がら

→もっと見る

  • アクセスカウンター
PAGE TOP ↑