*

sed で連続した複数の空行を1つにまとめる

公開日: : 最終更新日:2014/07/16 パソコン

前日の記事「 WSH で初めてのプログラミング 」で行った作業ですが、ちょっと不満があったのでやり直し。

プログラムではなく、データ自体の問題。

6000以上ある個別のテキストファイルのうちのかなりのものが重複しているのですが、改行が1つ余分に入っているだけで同じファイルとは認識されず、ほぼ同じデータが最終データに大量に混入します。

そこでまたいろいろ考えたのですが、たしか sed(ストリームエディタ)で昔やったことがあるな、と。

sed マニュアル

調べてみるとありました。

/^$/{
N
/^\n$/D
}

 

上の sed 用コマンドで、複数個の連続した改行(空の行)を1つに縮められます。

> sed –f commandfile < file1 >file2

の書式を使って簡単に終了。

もちろん1個1個こんなことはしておらず、DOS用のsedコマンドを使ったためバッチファイルと組み合わせて一括で処理してしまいました。

前日の結果よりも 500個近い重複ファイルが排除され、ずいぶんスリムになりました。

上は DOS で行ったのでめんどくさいですが、Linux なら sed  も標準で装備していますし、強力なシェルスクリプトもありますので、もっと簡単。

上の sed 用コマンドを commandfile というファイルにしておいて次のようなシェルスクリプトを端末から走らせれば、テキストファイルが 6000個だろうと 6000万個だろうと一発ですんでしまいます。

 

#!/bin/bash

shori_files=”$(find /tmp/shorizen -name *.txt)”
for file in $shori_files
do
    sed -f commandfile < $file >  /temp/shorigo $file
done

###

 

関連記事

Cyberlink 製 Media Espresso 6

 地デジ録画ではファイルサイズがでかい。  CM カットがきれいにできるようになったら、次

記事を読む

遠隔画像診断のビジネスモデル(2)

遠隔画像診断のビジネスモデルの続きです。 * 遠隔画像診断の模式図を変更しました。 上

記事を読む

A-DATA ASP900S3-64GM-C-7MM / ADATA 2.5"SSD 64GB SATA6G

A-DATA ASP900S3-64GM-C-7MM ADATA 2.5"SSD

記事を読む

SSDの値崩れ

Kingston SSD V100 standalone 64GB SV100S

記事を読む

シリコンパワー 2.5インチ SSD SATAII 32GB SP032GBSSDE20S25

シリコンパワー 2.5インチSolid State Disk 高速転送 SA

記事を読む

壁紙屋本舗

デジカメde!!年賀状2001

じつは 2000年冬に買った年賀状ソフトをいまだに使っています。 エーアイソフトの「デジカメd

記事を読む

Windows Home Server 2011 ご到着

Microsoft Home Server 2011 日本語 DSP版 DV

記事を読む

Adobe Acrobat X Standard でOCR

* この前 3300円で入手できた Adobe Acrobat X Standard OEM版

記事を読む

CAT8 LANケーブル 1m

自宅の仕事場の回線をマンションタイプ(VDSL)から NURO 2Gプランに換えました。

記事を読む

レノボのパソコンに盗聴用チップ?

* ネタ元>英情報機関 ハッキング用工作 発見 中国レノボ社製 PC「使うな」 7/31 の

記事を読む

Message

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

知識は体系的に学ばないと身につかない

知識は体系的に 知識は体系的に学ばないと身につかないものです。 断

医者になって42年

42年前(1984年)には、以下のような出来事がありました。

Claude 使ってみる

Claude についていろいろ調べてみていたわけですが、いよいよ使って

CAT8 LANケーブル 1m

自宅の仕事場の回線をマンションタイプ(VDSL)から NURO

WiMAX 到着

WiMAX の機器(Speed Wi-Fi HOME 5G L13+n

→もっと見る

  • 2026年5月
     123
    45678910
    11121314151617
    18192021222324
    25262728293031
  • アクセスカウンター
PAGE TOP ↑