*

sed で連続した複数の空行を1つにまとめる

公開日: : 最終更新日:2014/07/16 パソコン

前日の記事「 WSH で初めてのプログラミング 」で行った作業ですが、ちょっと不満があったのでやり直し。

プログラムではなく、データ自体の問題。

6000以上ある個別のテキストファイルのうちのかなりのものが重複しているのですが、改行が1つ余分に入っているだけで同じファイルとは認識されず、ほぼ同じデータが最終データに大量に混入します。

そこでまたいろいろ考えたのですが、たしか sed(ストリームエディタ)で昔やったことがあるな、と。

sed マニュアル

調べてみるとありました。

/^$/{
N
/^\n$/D
}

 

上の sed 用コマンドで、複数個の連続した改行(空の行)を1つに縮められます。

> sed –f commandfile < file1 >file2

の書式を使って簡単に終了。

もちろん1個1個こんなことはしておらず、DOS用のsedコマンドを使ったためバッチファイルと組み合わせて一括で処理してしまいました。

前日の結果よりも 500個近い重複ファイルが排除され、ずいぶんスリムになりました。

上は DOS で行ったのでめんどくさいですが、Linux なら sed  も標準で装備していますし、強力なシェルスクリプトもありますので、もっと簡単。

上の sed 用コマンドを commandfile というファイルにしておいて次のようなシェルスクリプトを端末から走らせれば、テキストファイルが 6000個だろうと 6000万個だろうと一発ですんでしまいます。

 

#!/bin/bash

shori_files=”$(find /tmp/shorizen -name *.txt)”
for file in $shori_files
do
    sed -f commandfile < $file >  /temp/shorigo $file
done

###

 

関連記事

Vostro260S 電源トラブル

本日帰宅すると TV録画用の Vostro260 が死んでました。スイッチを入れてもなんの反

記事を読む

さらばサンネット

  サンネット(SANNET)はサンヨーというブランドで有名だった三洋電機が

記事を読む

クラウド型スクリーンショット Gyazo

Gyazo ってご存じですか? 我々のような画像診断医にとってもそれ以外の人にも、とっても便利

記事を読む

Windows XP インターネット+ネットワーク上級マニュアル

Windows XP インターネット+ネットワーク上級マニュアル―極める!ヘビー

記事を読む

中古PC 3台ゲットだぜ 2023-4-21

久々にヤフオクで中古PCをゲットしました。 モデルはどれも私の好きな NEC製品です。

記事を読む

PLANEX ハイパワー無線LANルータ MZK-W300NH2 突然死

PLANEX 11n/b/g 300Mbps ハイパワー無線LANルータ MZK-W

記事を読む

Western Digital HDD WD80JD 3台セットのご到着

* Western Digital HDD WD80JD の3台セットを 780円で落札してい

記事を読む

Windows8 を企業は採用するか

* 企業の IT 担当者へのアンケートで、Windows8 を採用するかと訊いたところ、予定で

記事を読む

Haze OS 6 試用してみた

チーズケーキというオペレーティングシステム 「ライブCDの部屋」で Haze OS 6.0.1 C

記事を読む

簡単なホームページ作成ソフト(続き)

【上位版】次世代型サイト作成システム「SIRIUS」 忙しくてなかなかいじれません。 昨

記事を読む

Message

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

イオン株2/3売る

2022年7月20日に株主優待目当てにイオン株を 100株買いました。

HFM ドル口座開設

以前紹介した スプレッドが狭い業者である HFM ですが、リアル口座を

ウエスタンデジタルHDD Ultrastar 14TB

以前書いた記事「500GB HDD が安い」の中で紹介した 2.5イン

フランケーヌの犬

腐乱犬:「イオーン、イオーン」 子供:「あ、なにか遠吠えしてるね

【FX】AXI Select 4日目 エッジスコアがちょっとだけ上がる

プロップファームの一種である AXI Select のインキュベーショ

→もっと見る

  • 2025年12月
    1234567
    891011121314
    15161718192021
    22232425262728
    293031  
  • アクセスカウンター
PAGE TOP ↑