Un scrapper es un pequeño programa (normalmente llamado script) que cumple la función de extraer datos de una página web leyendo su contenido.
En el caso de ruby es muy fácil hacer un scrapper de una página web utilizando la gema mechanize, por ejemplo digamos si quisiéramos extraer el contenido de la wikipedia de la página 2014 (lo más importante del año hasta ahora) podríamos hacer lo siguiente:
Paso 1) instalar la gema Mechanize desde el terminal
$gem install mechanize
Paso 2) crear el script «wiki-parser.rb»
require "open-uri"
require "mechanize"
def main()
agent = Mechanize.new
agent.user_agent_alias = 'Mac Safari'
agent.get("http://es.wikipedia.org/wiki/2014") do |page|
puts page.parser.css('#content').text
end
end
main()
¿ Cómo funciona?
Primero crea una agente, este agente será el que se conecte con la página y la descargue, en la siguiente línea se especifica un user_agent así el servidor que te entrega la página crees que te estas conectando desde Safari, aunque bien podrías decir que el llamado viene de firefox, chrome, o incluso Internet Explorer.
Finalmente el agente se conecta con la página de la wikipedia y muestra el contenido que esté debajo dentro del area de contenido, o sea que este script no muestra la información que está en las barras de navegación, para saber donde tienes que apuntar puedes dentro de una página web puedes entrar a ella y ocupar el inspector de elementos.
- ¿Por qué Twitter fue hecho en Ruby on Rails? - abril 15, 2016
- Construyendo una landing page en Ruby on Rails desde cero. - febrero 11, 2016
- Pair programming (de a dos es mejor) - febrero 11, 2016
- Creando un wordpress en hostinger - abril 18, 2015
- Login con facebook en rails 4.1 y 4.2 - febrero 3, 2015
- EL ASSET PATH DE RAILS - enero 26, 2015
- Entendiendo los objetos en Ruby - enero 21, 2015
- La verdadera educación Tecnologica - enero 14, 2015
- Kit Digital del gobierno de Chile - enero 14, 2015
- ¿Como diseñar un buen Layout para tu página web? - enero 13, 2015
Deja un comentario