*

sed で連続した複数の空行を1つにまとめる

公開日: : 最終更新日:2014/07/16 パソコン

前日の記事「 WSH で初めてのプログラミング 」で行った作業ですが、ちょっと不満があったのでやり直し。

プログラムではなく、データ自体の問題。

6000以上ある個別のテキストファイルのうちのかなりのものが重複しているのですが、改行が1つ余分に入っているだけで同じファイルとは認識されず、ほぼ同じデータが最終データに大量に混入します。

そこでまたいろいろ考えたのですが、たしか sed(ストリームエディタ)で昔やったことがあるな、と。

sed マニュアル

調べてみるとありました。

/^$/{
N
/^\n$/D
}

 

上の sed 用コマンドで、複数個の連続した改行(空の行)を1つに縮められます。

> sed –f commandfile < file1 >file2

の書式を使って簡単に終了。

もちろん1個1個こんなことはしておらず、DOS用のsedコマンドを使ったためバッチファイルと組み合わせて一括で処理してしまいました。

前日の結果よりも 500個近い重複ファイルが排除され、ずいぶんスリムになりました。

上は DOS で行ったのでめんどくさいですが、Linux なら sed  も標準で装備していますし、強力なシェルスクリプトもありますので、もっと簡単。

上の sed 用コマンドを commandfile というファイルにしておいて次のようなシェルスクリプトを端末から走らせれば、テキストファイルが 6000個だろうと 6000万個だろうと一発ですんでしまいます。

 

#!/bin/bash

shori_files=”$(find /tmp/shorizen -name *.txt)”
for file in $shori_files
do
    sed -f commandfile < $file >  /temp/shorigo $file
done

###

 

関連記事

no image

オンラインコンパイラ

* この前、ちょっと C言語でプログラムを作ろうかと思い立ちました。 何年ぶりかな? ベクター

記事を読む

DELL Precision490 2台目ゲット

  * 製品名:Precision 490 CPU:Intel Xeon 51

記事を読む

Windows10 のつまらないバグ

本日、PCで録画したファイルを消そうとしたらファイルマネージャーやその類縁ソフトで消せなくなってしま

記事を読む

パソコンは2台

* 本日のようにパソコンが壊れても15分くらいで直ってしまうのは、作業できる他のパソコンと予備

記事を読む

Crucial V4 128GB SSD 続き

Crucial V4 128GB 2.5inch SSD SATA3Gbps 9

記事を読む

Puppy Linux と AbiWord

* パピーというとわれわれの世代では「遊星少年パピイ」を思い出すのですが・・・ え、相当古い

記事を読む

WindowsXP の弱点というか Ubuntu の利点

昔使っていたマシンから取り出したハードディスク(WindowsXP と Ubuntu 10.04

記事を読む

HD革命/CopyDrive Ver.4 with Partition EX

HD革命/CopyDrive Ver.4 with Partition EX

記事を読む

自宅のメインの WindowsXP が立ち上がらなくなった (3)

「自宅のメインの WindowsXP が立ち上がらなくなった (2)」の続きですが、 Fire

記事を読む

mepis という OS

* mepis という Linux ディストリビューションがあります。 現在は有料に移行したよう

記事を読む

Message

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

カラーレーザープリンタに久々にココロ惹かれる

本日、上新電機に立ち寄る機会があり、ちらっと見かけた Epson のカ

Gemini に経済を教わる

Gemini に質問してみました。 私「日経平均とダウ平均との関

AI で note に投稿することが流行っているそうな

AI で note に投稿することが流行っているそうな。 not

GS 日本株・プラス(通貨分散コース)の今月の配当

日本の投資信託の GS 日本株・プラス(通貨分散コース)の今月の配当金

知識は体系的に学ばないと身につかない

知識は体系的に 知識は体系的に学ばないと身につかないものです。 断

→もっと見る

  • アクセスカウンター
PAGE TOP ↑