*

sed で連続した複数の空行を1つにまとめる

公開日: : 最終更新日:2014/07/16 パソコン

前日の記事「 WSH で初めてのプログラミング 」で行った作業ですが、ちょっと不満があったのでやり直し。

プログラムではなく、データ自体の問題。

6000以上ある個別のテキストファイルのうちのかなりのものが重複しているのですが、改行が1つ余分に入っているだけで同じファイルとは認識されず、ほぼ同じデータが最終データに大量に混入します。

そこでまたいろいろ考えたのですが、たしか sed(ストリームエディタ)で昔やったことがあるな、と。

sed マニュアル

調べてみるとありました。

/^$/{
N
/^\n$/D
}

 

上の sed 用コマンドで、複数個の連続した改行(空の行)を1つに縮められます。

> sed –f commandfile < file1 >file2

の書式を使って簡単に終了。

もちろん1個1個こんなことはしておらず、DOS用のsedコマンドを使ったためバッチファイルと組み合わせて一括で処理してしまいました。

前日の結果よりも 500個近い重複ファイルが排除され、ずいぶんスリムになりました。

上は DOS で行ったのでめんどくさいですが、Linux なら sed  も標準で装備していますし、強力なシェルスクリプトもありますので、もっと簡単。

上の sed 用コマンドを commandfile というファイルにしておいて次のようなシェルスクリプトを端末から走らせれば、テキストファイルが 6000個だろうと 6000万個だろうと一発ですんでしまいます。

 

#!/bin/bash

shori_files=”$(find /tmp/shorizen -name *.txt)”
for file in $shori_files
do
    sed -f commandfile < $file >  /temp/shorigo $file
done

###

 

関連記事

マウスでノイズ 犯人は Radeon HD 4550

現在退役中の自作PC、愛称「BlueRose」ですが、Windows 7 を再インストールし

記事を読む

Ubuntu MATE 16.04 をインストール

Ubuntu MATE 16.04 (日本語Remix ではない英語版)をハードディスクにイ

記事を読む

USB3.0 対応ギガビットイーサネットアダプタ

USB to Ethernet CableCreation 超高速USB 3.0

記事を読む

DELL Vostro260S 逝く

2011年7月に新品で買った DELL Vostro260S が昨日壊れました。 いや、壊したのか

記事を読む

DELL DIMENSION 9200 2台め初舞台

 * CPU:Core2Duo 6300 / 1.86GHz メモリ:2GB HDD:32

記事を読む

no image

美麗な壁紙

* 以下のサイトで 超・美麗な壁紙が無料でゲットできます。 > http://www.wa

記事を読む

Optiplex960 タワー登場

Optiplex960[/caption] ヤフオクで 4410円で落とした完動品(

記事を読む

簡単なホームページ作成ソフト(続き)

【上位版】次世代型サイト作成システム「SIRIUS」 忙しくてなかなかいじれません。 昨

記事を読む

自宅の録画用PC壊れた

なんか最近モノがどんどん壊れていきます。 暑さのせいか。 この 1ヶ月に PC が 3台壊れ

記事を読む

【ヤフオク】 NEC PC-MK25TGFCE 液晶一体型PC (2)

3350円+送料で落札したモニタ一体型パソコンですが、ハードウェア的には故障はなさそうです。

記事を読む

Message

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

S&P500 よりゴルプラ

「ゴルプラ」とは、日興アセットマネジメントの投資信託「Tracers

楽天SCHD順調(筋書き通り?)

https://www.youtube.com/watch?v=o9V

NF日本高配当70 から GS日本株・プラス(通貨分散コース)へ

超高配当(現時点では)の「GS日本株・プラス(通貨分散コース)」をとり

GS日本株・プラス(通貨分散コース)本日より購入開始

投資信託の「GS日本株・プラス(通貨分散コース)」を本日から開始します

【FX】MACD をトリガーに平均足をフィルタに使ったトレンドフォローEA

MACD をトリガーに、平均足をフィルタに使ったトレンドフォローEA

→もっと見る

  • 2026年3月
     1
    2345678
    9101112131415
    16171819202122
    23242526272829
    3031  
  • アクセスカウンター
PAGE TOP ↑