*

sed で連続した複数の空行を1つにまとめる

公開日: : 最終更新日:2014/07/16 パソコン

前日の記事「 WSH で初めてのプログラミング 」で行った作業ですが、ちょっと不満があったのでやり直し。

プログラムではなく、データ自体の問題。

6000以上ある個別のテキストファイルのうちのかなりのものが重複しているのですが、改行が1つ余分に入っているだけで同じファイルとは認識されず、ほぼ同じデータが最終データに大量に混入します。

そこでまたいろいろ考えたのですが、たしか sed(ストリームエディタ)で昔やったことがあるな、と。

sed マニュアル

調べてみるとありました。

/^$/{
N
/^\n$/D
}

 

上の sed 用コマンドで、複数個の連続した改行(空の行)を1つに縮められます。

> sed –f commandfile < file1 >file2

の書式を使って簡単に終了。

もちろん1個1個こんなことはしておらず、DOS用のsedコマンドを使ったためバッチファイルと組み合わせて一括で処理してしまいました。

前日の結果よりも 500個近い重複ファイルが排除され、ずいぶんスリムになりました。

上は DOS で行ったのでめんどくさいですが、Linux なら sed  も標準で装備していますし、強力なシェルスクリプトもありますので、もっと簡単。

上の sed 用コマンドを commandfile というファイルにしておいて次のようなシェルスクリプトを端末から走らせれば、テキストファイルが 6000個だろうと 6000万個だろうと一発ですんでしまいます。

 

#!/bin/bash

shori_files=”$(find /tmp/shorizen -name *.txt)”
for file in $shori_files
do
    sed -f commandfile < $file >  /temp/shorigo $file
done

###

 

関連記事

医知悟は Linux では使えない

* 高槻でいつも読影に使っているサブマシン(Windows7 マシン;Vostro)が先週金曜

記事を読む

UBUNTU16.04LTS に Xfce デスクトップを追加

私も大衆と同じく Ubuntu のキライなところはデスクトップ環境である Unity ですね

記事を読む

【ヤフオク】WesternDigital 中古3.5 HDD 3ヶセット 落札

250GB の ハードディスク 3台セットを落札。1500円+送料でした。 WD2

記事を読む

SAPPHIRE ビデオカード FLEX HD6770 1G GDDR5 PCI-E DL-DVI-I+SL-DVI-D/HDMI/DP

SAPPHIRE ビデオカード FLEX HD6770 1G GDDR5 PCI

記事を読む

LXLE 再びインストール

> SugarMoon : LXLE Linux ディストリビューションの LXLE

記事を読む

壊れる前のバックアップ(2) WD20EZRXのアライメント問題

【Amazon.co.jp限定】WD Green 3.5inch Intelli

記事を読む

no image

WD Align Utility

WD Align  最近の 2TB超の WesternDigital製のハードディスク

記事を読む

PATA ハードディスクのチェック(3)

SANWA SUPPLY IDE/SATA-USB変換ケーブル 0.72m US

記事を読む

Q4OS インストールしてみた

* Q4OS という Linux ディストリビューションが DistroWatch で紹介され

記事を読む

中古ノートパソコン注文しました

いわゆる再生品です。 ヤガミ電気というところが販売している NEC ノートPC VKシ

記事を読む

Message

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

来週上場の 563A(グローバルX NASDAQ100・デイリー・カバード・コール ETF)

563A(グローバルX NASDAQ100・デイリー・カバード・コール

「日本高配当」ETF売却

昨日、2つの ETF を売却。 GX高配当30日株 (235

神田カレーグランプリ 100時間カレーB&R 欧風ビーフカレー

S&B のレトルトカレー。 今日はこれを食べてみまし

中国のハリウッドが大変なことに

https://www.youtube.com/watch?v=GRu

マイクロ波を使って廃プラスチックからナフサを作る

廃プラスチックからマイクロ波を使ってナフサを作るという話があります。

→もっと見る

  • アクセスカウンター
PAGE TOP ↑