趣味のためのMacに関するサイト > AppleScript > あるサイトの全文取得をするには
AppleScript

あるサイトの全文取得をするには

ある、ためになるサイトが有ってテキストとして控えておきたいと思いました。

しかし、そのサイトは五年分 × 365日 = 1825記事あります。

全部読むのだけでも何日もかかりました。

それをブラウザを開いてコピペするのでは大変です。

そこで自分がなんとか使える、AppleScriptのGUIScriptingで出来ないかと考えました。

——————使うアプリ

○Safari

○Jedit

○AppleScriptは出来ればGUIScriptingで。

——————問題点

○Safariのページをコピーするとよけいなものまでコピーされる。

Jeditにコピーしてから、プレーンテキストにする。

(プルダウンメニュー、ショートカットキーが有るのでGUIScripting可能。)

○空白行が有る。

ソースを見ると

と改行が連続しているので

エディターで


か /n/n → /nと置換する。

(逐次処理、一括処理で迷います。)

○アドレスの処理  ○○○/YYYYMMDD”0000″の連番なので日付処理で取得が可能。

○エディタの限界になったら(10000行超)

改ページを指定。

○エラー処理  try構文かon error構文を使う。

実際に無い日付と、データが無いページが有った場合は次のURLに移動。

○不要なヘッダとフッタの削除

ヘッダはある行まで、フッタはキーワード以降を削除

○長時間かかる。

仕事が終わってから、自動運転させる。

時間のカウントをして、指定時間が来たら強制終了の命令を出す。

○10000行手前でファイルの読み書きで時間がかかるときは

最初に小さいファイルでヘッダ、フッタの処理をして、その後本文を張り付ける。

または、複数の小さいファイルに小分けして最後に読み込む。

○delay命令が必要か  これはテストして見るしか無い。

——————もし、AppleScriptで出来なかったら

①automatorを使う

②ダウンローダーを使う。

③AcrobatPro9の Webキャプチャー機能を使う。

(これはデータ量が多くなって時間がかかるので見返すのにも時間がかかるので

実用的ではないが、最悪の場合に使用)

——————考え方のKYとして

問題点を書き出して、どう処理するかをあらかじめ検討しておけば 不安が解消されて、

時間の短縮にもなるし、あれこれ思い悩む事も無いと思います。

今まではいきなりスクリプトを書いてからすぐスクリプトを動かして

泥縄式で直していましたが、今回は一度和文で流れを書いてから

Scriptingをしてみたいと思います。問題点を先に洗い出すという方式です。

——————データの再利用(つかいまわし)

上記の問題点は以前ぶつかったScriptingでの問題点なので蓄積が有りますので、

今回利用できると思います。 過去の経験が生きているなと感じます。

仕事もこのような流れて行きたいものと思います。

——————もし、Scriptingで良いヒントが有りましたら

私はプログラミングの素養が有りませんのでなんとか動かしている程度です。

もし、AppleScriptの構文で良いヒントが有りましたらヒントを頂ければありがたいと思います。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

ページトップに戻る↑                           ページ一番下へ↓

Mac

About 1q3

ツールとしてのMacについてのメリットデメリットなどの事について書いています。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です