*

sed で連続した複数の空行を1つにまとめる

公開日: : 最終更新日:2014/07/16 パソコン

前日の記事「 WSH で初めてのプログラミング 」で行った作業ですが、ちょっと不満があったのでやり直し。

プログラムではなく、データ自体の問題。

6000以上ある個別のテキストファイルのうちのかなりのものが重複しているのですが、改行が1つ余分に入っているだけで同じファイルとは認識されず、ほぼ同じデータが最終データに大量に混入します。

そこでまたいろいろ考えたのですが、たしか sed(ストリームエディタ)で昔やったことがあるな、と。

sed マニュアル

調べてみるとありました。

/^$/{
N
/^\n$/D
}

 

上の sed 用コマンドで、複数個の連続した改行(空の行)を1つに縮められます。

> sed –f commandfile < file1 >file2

の書式を使って簡単に終了。

もちろん1個1個こんなことはしておらず、DOS用のsedコマンドを使ったためバッチファイルと組み合わせて一括で処理してしまいました。

前日の結果よりも 500個近い重複ファイルが排除され、ずいぶんスリムになりました。

上は DOS で行ったのでめんどくさいですが、Linux なら sed  も標準で装備していますし、強力なシェルスクリプトもありますので、もっと簡単。

上の sed 用コマンドを commandfile というファイルにしておいて次のようなシェルスクリプトを端末から走らせれば、テキストファイルが 6000個だろうと 6000万個だろうと一発ですんでしまいます。

 

#!/bin/bash

shori_files=”$(find /tmp/shorizen -name *.txt)”
for file in $shori_files
do
    sed -f commandfile < $file >  /temp/shorigo $file
done

###

 

関連記事

Gmail で溜まったメールの一括削除

Gmail の無料の容量は 15GBありますが、使用量が 86%になったころから、しょっちゅう「容量

記事を読む

USB 簡易電圧・電流チェッカー / 普通の人は不要だけど

ルートアール USB 簡易電圧・電流チェッカー VA同時表示・充電最適化回路内蔵

記事を読む

で、新しいマシンを作った

* で、新しいマシンを作ったワケ。 マザボは GIGABYTE の MA78GM-US2H。

記事を読む

DELL PRECISION 490 様ご到着

* QuadroFX 4500 のついたワークステーション DELL PRECISION

記事を読む

Core i3-8100 について(2)

Core i3-8100 という最近入手した中古の CPU について。 Core i3-6100、

記事を読む

Netac SSD 128GB 2.5インチSATA

Netac という素性の知れない中華メーカーの NVMe タイプの SSD を買ったら 予想

記事を読む

Windows10 でファイルマネージャー「反応なし」

自宅のメインPC はふるさと納税でもらった Windows10 マシンでメモリは 8GB ありますが

記事を読む

64GB SSD 最安

シリコンパワー 2.5インチSolid State Disk 高速転送 SA

記事を読む

GMKtec Ryzen 7内蔵ミニPC 注文

アマゾンのスマイルセールで 14000円以上値引きされているこいつを発見。 GMKtec

記事を読む

エレコム ギガビットイッチングハブ 8ポート EHC-G08PA3-W

エレコム スイッチングハブ 5ポートor8ポート ギガビット

記事を読む

Message

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

昆虫由来の食用色素

博物学が好きな人はご存じかもしれませんが、西洋ではコチニールカイガラム

Antigravity で遊ぶ

数日前から Google の AI エージント Antigravity

AXI Select のエッジスコアがついに 70に

一昨日、「プロップファームの AXI Select の なかなか上がら

Gemini 3.5Flash について

NHK で好きな番組でほぼ毎回録画しているものに『美の壷』があります。

AXI Select ようやくエッジスコアが上昇傾向に

プロップファームの一種である AXI Select はインキュベーショ

→もっと見る

  • アクセスカウンター
PAGE TOP ↑