*

sed で連続した複数の空行を1つにまとめる

公開日: : 最終更新日:2014/07/16 パソコン

前日の記事「 WSH で初めてのプログラミング 」で行った作業ですが、ちょっと不満があったのでやり直し。

プログラムではなく、データ自体の問題。

6000以上ある個別のテキストファイルのうちのかなりのものが重複しているのですが、改行が1つ余分に入っているだけで同じファイルとは認識されず、ほぼ同じデータが最終データに大量に混入します。

そこでまたいろいろ考えたのですが、たしか sed(ストリームエディタ)で昔やったことがあるな、と。

sed マニュアル

調べてみるとありました。

/^$/{
N
/^\n$/D
}

 

上の sed 用コマンドで、複数個の連続した改行(空の行)を1つに縮められます。

> sed –f commandfile < file1 >file2

の書式を使って簡単に終了。

もちろん1個1個こんなことはしておらず、DOS用のsedコマンドを使ったためバッチファイルと組み合わせて一括で処理してしまいました。

前日の結果よりも 500個近い重複ファイルが排除され、ずいぶんスリムになりました。

上は DOS で行ったのでめんどくさいですが、Linux なら sed  も標準で装備していますし、強力なシェルスクリプトもありますので、もっと簡単。

上の sed 用コマンドを commandfile というファイルにしておいて次のようなシェルスクリプトを端末から走らせれば、テキストファイルが 6000個だろうと 6000万個だろうと一発ですんでしまいます。

 

#!/bin/bash

shori_files=”$(find /tmp/shorizen -name *.txt)”
for file in $shori_files
do
    sed -f commandfile < $file >  /temp/shorigo $file
done

###

 

関連記事

Lexar NM620 M.2 SSD NVMe 256GB

【正規代理店】Lexar NM620 M.2 SSD NVM

記事を読む

財布にやさしい Linux

* 現在、高槻遠隔画像診断センターで私が仕事以外でメインで使っているパソコンは Optiple

記事を読む

UGREEN Revodok 105 USB-Cハブ(HDMI+USB3.0+USB2.0x2+100W)

UGREEN製のスリムなUSB多目的ハブです。 ノートパソコンなどの USB-C コネクタに接

記事を読む

さよならBフレッツ

仕事場(高槻の事務所)の光回線の工事が昨日ありました。 長らくBフレッツを使っていたのでしたが

記事を読む

プチフリ?

* 復活させたPC、愛称「Blue Rose」ですが、どうも動作が遅い。 SSD が遅いせい

記事を読む

パナソニック製 BD-Rメディア

Panasonic ブルーレイディスク 録

記事を読む

WebARENA Indigo というサービス

WebARENA Indigo というサービスがあります。 Windows デスクトップのサー

記事を読む

QuickTime は使えない

* うちの娘に頼まれて録画していたTV番組のファイルを渡したところ、映像も音もカクカクして観ら

記事を読む

ASUS製 23インチ IPS液晶モニタ VZ239HR

【Amazon.co.jp限定】ASUS フレームレス モニター 23インチ IPS

記事を読む

Kubuntu14.04 インストールしてみた

もともと Ubuntu の公式派生だった Kubuntu ですが、現在はコミュニティベースの開発

記事を読む

Message

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

50年ぶりにリュックサックを買う

50年ぶりにリュックサックを買うことになりました。 ふだんは

WCM 世界成長株厳選ファンド(予想分配金提示型)【愛称】ネクスト・ジェネレーション

「WCM 世界成長株厳選ファンド(予想分配金提示型)」という投資信託は

無題その1

人間の目が最も感度がいい色は黄色。 なぜ? たぶんこれは太陽の

あっちのゴルカン

昨日、「Tracers MSCIオール・カントリー・ゴールドプラス」に

新しい事務所が欲しい

近々、高槻の事務所を閉めることになりそうで、自宅の近くに新たに事務所を

→もっと見る

  • アクセスカウンター
PAGE TOP ↑