Pequeño Scrapper de Wikipedia

Un scrapper es un pequeño programa (normalmente llamado script) que cumple la función de extraer datos de una página web leyendo su contenido.

En el caso de ruby es muy fácil hacer un scrapper de una página web utilizando la gema mechanize, por ejemplo digamos si quisiéramos extraer el contenido de la wikipedia de la página 2014 (lo más importante del año hasta ahora) podríamos hacer lo siguiente:

Paso 1) instalar la gema Mechanize desde el terminal

$gem install mechanize

Paso 2) crear el script “wiki-parser.rb”

require "open-uri"
require "mechanize"

def main()
  agent = Mechanize.new
  agent.user_agent_alias = 'Mac Safari'
  agent.get("http://es.wikipedia.org/wiki/2014") do |page|
    puts page.parser.css('#content').text
  end
end

main()

¿ Cómo funciona?

Primero crea una agente, este agente será el que se conecte con la página y la descargue, en la siguiente línea se especifica un user_agent así el servidor que te entrega la página crees que te estas conectando desde Safari, aunque bien podrías decir que el llamado viene de firefox, chrome, o incluso Internet Explorer.

Finalmente el agente se conecta con la página de la wikipedia y muestra el contenido que esté debajo dentro del area de contenido, o sea que este script no muestra la información que está en las barras de navegación, para saber donde tienes que apuntar puedes dentro de una página web puedes entrar a ella y ocupar el inspector de elementos.

Sep 23, 2014Gonzalo Sánchez

El Autor
Últimos Posts

About Gonzalo Sánchez

Emprendedor lean, Ingeniero civil informático dedicado al desarrollo de una mejor web con ruby on rails. Fanático de los números y las métricas y por sobre todo fundador de en1mes.

Mostbet giris 2025 ile hemen oynayin - July 2, 2025
Mostbet oficial: apuestas sin limites - July 2, 2025
Mostbet Yuklab Olish: Mobil Qollanish - July 2, 2025
Tehlukesiz ve Eylenceli Bahis Tecrubesi Most Bet ile - July 2, 2025
Alev Casino ile ödeme beklemeden kazancını al - July 2, 2025
Unlock Big Betting Rewards with a Promo Code from MostBet - July 1, 2025
Mostbet tragamonedas con grandes premios - July 1, 2025
Mostbet Site: Adventure Awaits, Join Today - July 1, 2025
A Comprehensive Guide to Betting with Mostbet - June 30, 2025
Bahis Deneyiminizi bahiscom ile Gelistirin - June 30, 2025

10 years ago TutorialesGemas, ruby, Scrapping2,301

Pequeño Scrapper de Wikipedia

¿ Cómo funciona?

About Gonzalo Sánchez

Leave a Reply Cancel reply

Tags

Interesado en otros tipos de emprendimiento?

No te pierdas ningún artículo.

Pequeño Scrapper de Wikipedia

¿ Cómo funciona?

About Gonzalo Sánchez

You Might Also Like

EL ASSET PATH DE RAILS

Actualización de vistas parciales de Rails en tiempo real

Leave a Reply Cancel reply

Tags