使用ruby nokogiri抓点东西弄成分类语料_Ruby_编程开发_程序员俱乐部

中国优秀的程序员网站程序员频道CXYCLUB技术地图
热搜:
更多>>
 
您所在的位置: 程序员俱乐部 > 编程开发 > Ruby > 使用ruby nokogiri抓点东西弄成分类语料

使用ruby nokogiri抓点东西弄成分类语料

 2010/11/17 22:56:57  fuliang  http://fuliang.javaeye.com  我要评论(0)
  • 摘要:使用rubynokogiri从搜狐旅游新闻频道抓点东东做成分类的训练预料:#!/usr/bin/ruby##Author:fulianghttp://fuliang.javaeye.com#require'open-uri'require'nokogiri'link_xpath="/html/body/div/div[4]/div[1]/div/ul/li/a"content_xpath='//*[@id="contentText"]'10.upto(53)do|index|url="http
  • 标签:ruby抓东西
使用ruby nokogiri从搜狐旅游新闻频道抓点东东做成分类的训练预料:
#!/usr/bin/ruby

#
# Author: fuliang http://fuliang.javaeye.com 
#
require 'open-uri'
require 'nokogiri'

link_xpath = "/html/body/div/div[4]/div[1]/div/ul/li/a"
content_xpath = '//*[@id="contentText"]'

10.upto(53) do |index|
    url = "http://travel.sohu.com/lvyouxinwen_#{index}.shtml"
    STDERR.puts "processing #{url}..."
    Nokogiri::HTML(open(url)).xpath(link_xpath).each do |item|
       link,title = item.attributes["href"], item.content
       next unless link && title
       title = title.gsub(/\s+|[<>]/,"")
       contents = Nokogiri::HTML(open(link)).xpath(content_xpath)
       next unless contents && !contents.empty? 
       content = contents[0].content.gsub(/\s+|[<>]/m,"")
       puts "<TitleWords: %s><BodyWords: %s><category:TravelNews>" % [ title, content ]
    end
end
  • 相关文章
发表评论
用户名: 匿名