*

sed で連続した複数の空行を1つにまとめる

公開日: : 最終更新日:2014/07/16 パソコン

前日の記事「 WSH で初めてのプログラミング 」で行った作業ですが、ちょっと不満があったのでやり直し。

プログラムではなく、データ自体の問題。

6000以上ある個別のテキストファイルのうちのかなりのものが重複しているのですが、改行が1つ余分に入っているだけで同じファイルとは認識されず、ほぼ同じデータが最終データに大量に混入します。

そこでまたいろいろ考えたのですが、たしか sed(ストリームエディタ)で昔やったことがあるな、と。

sed マニュアル

調べてみるとありました。

/^$/{
N
/^\n$/D
}

 

上の sed 用コマンドで、複数個の連続した改行(空の行)を1つに縮められます。

> sed –f commandfile < file1 >file2

の書式を使って簡単に終了。

もちろん1個1個こんなことはしておらず、DOS用のsedコマンドを使ったためバッチファイルと組み合わせて一括で処理してしまいました。

前日の結果よりも 500個近い重複ファイルが排除され、ずいぶんスリムになりました。

上は DOS で行ったのでめんどくさいですが、Linux なら sed  も標準で装備していますし、強力なシェルスクリプトもありますので、もっと簡単。

上の sed 用コマンドを commandfile というファイルにしておいて次のようなシェルスクリプトを端末から走らせれば、テキストファイルが 6000個だろうと 6000万個だろうと一発ですんでしまいます。

 

#!/bin/bash

shori_files=”$(find /tmp/shorizen -name *.txt)”
for file in $shori_files
do
    sed -f commandfile < $file >  /temp/shorigo $file
done

###

 

関連記事

GF-GT520-LE1GH

玄人志向 グラフィックボード nVIDIA GeForce GT520 1GB

記事を読む

Pear8 その後

  見た目と操作性が MacOS にそっくりな Linux として非常に有名な

記事を読む

ADATA Premier Pro SP900 SSD SATA3.0 64GB

Blue Rose[/caption] Blue Rose * 以前に自作した

記事を読む

GV-MVP/XS2W で録画

GV-MVP/XS2W[/caption]  GV-MVP/XS2W というダブル

記事を読む

ハードディスクの換装

   「TrueImage Personal 2」 を使ったシステムディスクの換装が

記事を読む

LXLE 再びインストール

> SugarMoon : LXLE Linux ディストリビューションの LXLE

記事を読む

Olasonic USBスピーカー TW-S7(W)

Olasonic USBスピーカー バスパワー 10W+10W TW-S7(W)

記事を読む

SSD 240GB SATA3 2.5インチ 内蔵型 Imation イメーション 海外リテール品 A320-SATA3-240GB

【3/10限定★抽選で2人に1人最大100%Pバック(要エン

記事を読む

no image

Windows8 の効用

* Windows8 に興味がなくなったせいで、Linux 関係以外のパソコン雑誌を読むことがほと

記事を読む

信頼の BD-R ディスク LM-BR25LDH10

今時珍しい日本製の Blu-ray の相変化追記型のディスク パナソニック製 LM-BR25

記事を読む

Message

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

にしきや スパイシートマトビーフカレー 180g

ニシキヤキッチンのインドカレーシリーズ「にしきや スパイシートマト

Catchy(キャッチー)について

「Catchy(キャッチー)」を薦めている人(ライターさん)がいました

2026-6-15 高配当投資信託の乗り換え

いやあ、昨日はすごかった。 イラン戦争締結の憶測から、日本、米国の両

SUNO で作曲してみた

SUNO という音楽生成 AI で 初めて日本語歌詞付きの音楽を作曲し

高槻遠隔画像診断センターお引越し

いよいよ引っ越し当日。 始発電車で高槻へ。 寝過ごしてはいかん

→もっと見る

  • アクセスカウンター
PAGE TOP ↑