2006-09-21

_ 窓の杜 - 今日のお気に入りのEFT

窓の杜 - 今日のお気に入り」のEFTを書いてみた.

author: smallstyle
custom_feed_handle: http://www.forest.impress.co.jp/article
custom_feed_follow_link: /\d+/\d+/\d+/.*?.html$
handle: http://www.forest.impress.co.jp/article/\d+/\d+/\d+/.*?.html$
extract: <H1>(.*?)</H1>.*?<H3>(.*?)</H3>.*?<!-- 本文開始 -->(.*?)<!--■■■■記事執筆者署名■■■■-->.*?((.*?)).*?<!-- 本文終了 -->
extract_capture: title_1 title_2 body author
extract_after_hook: |
  $data->{title} = $data->{title_1};
  $data->{body} = "<p>".$data->{title_2}."</p>".$data->{body};
本日のツッコミ(全2件) [ツッコミを入れる]
_ otsune (2006-09-26 12:13)

<br>サイドバーにある「最新のNEWS記事」まで拾うのは意図した仕様なのかどうかが不明でしたが、こんな感じに修正してみました。(spamフィルター回避のためにttpに直しているのでそこは読み直してください)<br><br>author: smallstyle<br>custom_feed_handle: ttp://www\.forest\.impress\.co\.jp/article/okiniiri\.html<br>custom_feed_follow_link: /\d+/\d+/\d+/okiniiri\.html$<br>handle: ttp://www\.forest\.impress\.co\.jp/article/\d+/\d+/\d+/.*?\.html$<br>extract: <H1>(.*?)</H1>.*?<H3>(.*?)</H3>.*?<!-- 本文開始 -->(.*?)<!--■■■■記事筆者署名■■■■-->.*?((.*?)).*?<!-- 本文終了 <br>extract_capture: title title2 body author<br>extract_after_hook: |<br> $data->{body} = "<p>".$data->{title2}."</p>".$data->{body};

_ hb (2006-09-26 17:53)

spam 扱いで非表示なっていたので表示させました.<br>サイドバーの部分は意図的に含めたものです…ということは,修正前のが窓の杜「最新記事」のEFTで,修正後が本当の「今日のお気に入り」のEFTにといったところなりますね.<br>サイドバーを含めると1年分全部を見に行くのでどうかなぁとは思っていました.