読者です 読者をやめる 読者になる 読者になる

Perl日記

PerlとかRubyとかPHPとかPythonとか

Scalaでスクレイピング

Scalaスクレイピングしてみた。

ライブラリ

やってみた

はてなホッテントリのタイトルとリンクを抽出。

build.sbt
name := "scalascraping1"

version := "0.0.1"

libraryDependencies += "org.jsoup" % "jsoup" % "1.7.3"
main.scala
import org.jsoup._
import collection.JavaConverters._

object Main {
  def main(args: Array[String]): Unit = {
    val doc = Jsoup.connect("http://b.hatena.ne.jp/hotentry").get
    // asScalaで、JavaのArrayをScalaのcollectionに変換しないと、forで回せない
    for (t <- doc.select("a.entry-link").asScala) {
      println(t.text())
      println(t.attr("href"))
    }
  }
}
実行
$ sbt run
ネット民戦慄! 表現の自由を脅かす”ゾーニング破り”とは? - トゥギャッチ
http://togech.jp/2015/12/14/30710
ビジネス問題解決フレームワーク20選|今日から使えて最速で成長できる
http://career-theory.net/business-flamework-3002
App Storeの弊社デベロッパーアカウント停止に至った 経緯につきまして|株式会...
http://nagisa-inc.jp/news_release/20151214/1631
科学的調理法で作ったお手軽一人鍋がやばかった
http://anond.hatelabo.jp/20151214095821
職員が個人情報68万人分流出させる 大阪・堺市 NHKニュース
http://www3.nhk.or.jp/news/html/20151214/k10010340801000.html
所得低いほど高い喫煙率、歯少なく肥満者多い : 社会 : 読売新聞(YOMIURI ONL...
http://www.yomiuri.co.jp/national/20151214-OYT1T50013.html
...