*

sed で連続した複数の空行を1つにまとめる

公開日: : 最終更新日:2014/07/16 パソコン

前日の記事「 WSH で初めてのプログラミング 」で行った作業ですが、ちょっと不満があったのでやり直し。

プログラムではなく、データ自体の問題。

6000以上ある個別のテキストファイルのうちのかなりのものが重複しているのですが、改行が1つ余分に入っているだけで同じファイルとは認識されず、ほぼ同じデータが最終データに大量に混入します。

そこでまたいろいろ考えたのですが、たしか sed(ストリームエディタ)で昔やったことがあるな、と。

sed マニュアル

調べてみるとありました。

/^$/{
N
/^\n$/D
}

 

上の sed 用コマンドで、複数個の連続した改行(空の行)を1つに縮められます。

> sed –f commandfile < file1 >file2

の書式を使って簡単に終了。

もちろん1個1個こんなことはしておらず、DOS用のsedコマンドを使ったためバッチファイルと組み合わせて一括で処理してしまいました。

前日の結果よりも 500個近い重複ファイルが排除され、ずいぶんスリムになりました。

上は DOS で行ったのでめんどくさいですが、Linux なら sed  も標準で装備していますし、強力なシェルスクリプトもありますので、もっと簡単。

上の sed 用コマンドを commandfile というファイルにしておいて次のようなシェルスクリプトを端末から走らせれば、テキストファイルが 6000個だろうと 6000万個だろうと一発ですんでしまいます。

 

#!/bin/bash

shori_files=”$(find /tmp/shorizen -name *.txt)”
for file in $shori_files
do
    sed -f commandfile < $file >  /temp/shorigo $file
done

###

 

関連記事

Youtube は VLC で視聴すると広告が出ないよ

VLC media playerというフリーソフトは Mac, Windows, Linux に

記事を読む

ONKYO WAVIO MA-500U

★★★★☆ 今まで自宅の仕事場の PCにつないで使っていた DAC内蔵アンプです。

記事を読む

Windows10 の必要メモリ多すぎ

この前の記事「Windows10 でファイルマネージャー「反応なし」 」で書いたように、家でのメイン

記事を読む

XserverVPS 申し込み(Ubuntu+Gnomeデスクトップ)

エックスサーバーさんの Xserver VPS に申し込んでみました。 リモートデスクトップで

記事を読む

Lekhonee-gnome / Ubuntu でのブログエディタ

 先ほどの記事とこの記事は Ubuntu 上で書いています。  まあ、ブログを置いているサーバ

記事を読む

Windows Live Writer を使ってみた

Windows Live Writer というブログエディタ(Microsoft 製フリーソフト

記事を読む

Chalet OS 16.04 試用してみた

久々の Linux ネタです。 Zorin 12 Core 版を常用しているワタシで

記事を読む

Gmail をバックアップ

* フリーソフトでは Gmail Backup と Mail Store Home があります

記事を読む

WindowsXP あと1年使えます

2014年3月現在の使用OSのランキング[/caption] 以前にも書きましたが、

記事を読む

TMPGEnc MPEG Editor 3

  TMPGEnc MPEG Editor 3 ペガシス  2

記事を読む

Message

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

絵のうまい ChatGPT も課金するべきか?

「うそ しんいち」ばりにウソばっかりついていた印象のあった ChatG

にしきや スパイシートマトビーフカレー 180g

ニシキヤキッチンのインドカレーシリーズ「にしきや スパイシートマト

Catchy(キャッチー)について

「Catchy(キャッチー)」を薦めている人(ライターさん)がいました

2026-6-15 高配当投資信託の乗り換え

いやあ、昨日はすごかった。 イラン戦争締結の憶測から、日本、米国の両

SUNO で作曲してみた

SUNO という音楽生成 AI で 初めて日本語歌詞付きの音楽を作曲し

→もっと見る

  • アクセスカウンター
PAGE TOP ↑