*

sed で連続した複数の空行を1つにまとめる

公開日: : 最終更新日:2014/07/16 パソコン

前日の記事「 WSH で初めてのプログラミング 」で行った作業ですが、ちょっと不満があったのでやり直し。

プログラムではなく、データ自体の問題。

6000以上ある個別のテキストファイルのうちのかなりのものが重複しているのですが、改行が1つ余分に入っているだけで同じファイルとは認識されず、ほぼ同じデータが最終データに大量に混入します。

そこでまたいろいろ考えたのですが、たしか sed(ストリームエディタ)で昔やったことがあるな、と。

sed マニュアル

調べてみるとありました。

/^$/{
N
/^\n$/D
}

 

上の sed 用コマンドで、複数個の連続した改行(空の行)を1つに縮められます。

> sed –f commandfile < file1 >file2

の書式を使って簡単に終了。

もちろん1個1個こんなことはしておらず、DOS用のsedコマンドを使ったためバッチファイルと組み合わせて一括で処理してしまいました。

前日の結果よりも 500個近い重複ファイルが排除され、ずいぶんスリムになりました。

上は DOS で行ったのでめんどくさいですが、Linux なら sed  も標準で装備していますし、強力なシェルスクリプトもありますので、もっと簡単。

上の sed 用コマンドを commandfile というファイルにしておいて次のようなシェルスクリプトを端末から走らせれば、テキストファイルが 6000個だろうと 6000万個だろうと一発ですんでしまいます。

 

#!/bin/bash

shori_files=”$(find /tmp/shorizen -name *.txt)”
for file in $shori_files
do
    sed -f commandfile < $file >  /temp/shorigo $file
done

###

 

関連記事

自宅のメインマシンのCドライブ(SSD)を変更

* 最近自宅のメインマシン(愛称 WhiteBase )がときどきブートに失敗します。 マザ

記事を読む

Makululinux 15 LinDoz 2018 試用してみた

以前紹介した Makululinux 15 LinDoz の 2018版が 9月に出ていたよ

記事を読む

USB ポートの電源供給オーバー

2012年に自作した自宅の1号機(愛称 Whitebase)。 USBポートの一つに 7ポート

記事を読む

勢い余ってヤフオクでもう一つ DELL Optiplex 740 をゲット

DELL Optiplex 740 CPU AMD Athlon 6

記事を読む

パソコンいたずら100の方法 / Sillywalker

パソコンいたずら100の方法 Sillywalker データハウス 2

記事を読む

ハードディスクのコピー

私は PC のハードディスクのコピーには PC に繋がなくても使えるデュプリケーターを使っています。

記事を読む

no image

WLXQuickTime関係のトラブル

  この前から、VLC メディアプレーヤーや mpc-HC などの動画プレーヤーで、H2

記事を読む

昨日買っておいてよかった

 数日前に DELL から FAX で来ていた「Vostro 260s スリムタワーお得意様限

記事を読む

Chalet OS 16.04 試用してみた

久々の Linux ネタです。 Zorin 12 Core 版を常用しているワタシです

記事を読む

自宅のメインの WindowsXP が立ち上がらなくなった

自宅のメインの WindowsXP が立ち上がらなくなった。 入れ替えを考えていた矢先のできご

記事を読む

Message

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

エアタグ(GPSスマートタグ)

【Apple認証】エアタグ G

Celtic Harp/Patrick Ball(2)

以前の記事「Celtic Harp/Patrick Ball」の続きで

アマゾンで売られている 30TB のハードディスク

Amazon.co.jp で30TB の 外付けHDDが 1万

一神教は砂漠で生まれ、多神教は森で生まれた

一神教と多神教との違いは多々ありますが、 一神教は砂漠で生まれ、

胸部単純X線写真での異常影

いつの写真か全く覚えていませんが、かなり年配の女性。 「検診の胸部単

→もっと見る

  • 2025年5月
     1234
    567891011
    12131415161718
    19202122232425
    262728293031  
  • アクセスカウンター
PAGE TOP ↑