Un scrapper es un pequeño programa (normalmente llamado script) que cumple la función de extraer datos de una página web leyendo su contenido.
En el caso de ruby es muy fácil hacer un scrapper de una página web utilizando la gema mechanize, por ejemplo digamos si quisiéramos extraer el contenido de la wikipedia de la página 2014 (lo más importante del año hasta ahora) podríamos hacer lo siguiente:
Paso 1) instalar la gema Mechanize desde el terminal
$gem install mechanize
Paso 2) crear el script “wiki-parser.rb”
require "open-uri"
require "mechanize"
def main()
agent = Mechanize.new
agent.user_agent_alias = 'Mac Safari'
agent.get("http://es.wikipedia.org/wiki/2014") do |page|
puts page.parser.css('#content').text
end
end
main()
¿ Cómo funciona?
Primero crea una agente, este agente será el que se conecte con la página y la descargue, en la siguiente línea se especifica un user_agent así el servidor que te entrega la página crees que te estas conectando desde Safari, aunque bien podrías decir que el llamado viene de firefox, chrome, o incluso Internet Explorer.
Finalmente el agente se conecta con la página de la wikipedia y muestra el contenido que esté debajo dentro del area de contenido, o sea que este script no muestra la información que está en las barras de navegación, para saber donde tienes que apuntar puedes dentro de una página web puedes entrar a ella y ocupar el inspector de elementos.
- Mostbet: Kazanmanin Kolay Yolu - December 29, 2024
- MostBet Platformasinda Bahis Etmeyin En Effektiv Yollari - December 29, 2024
- Mostbet guncel giris linki hizli erisim saglar - December 28, 2024
- Most bet club: Kazanmaq ucun en yaxsi kurslar - December 27, 2024
- Mostbet Uzerinde Basariya Ulasmanin Yollari - December 27, 2024
- 378860681735240883 - December 26, 2024
- Mostbet giris sorunu nasil cozulur? - December 26, 2024
- Mostbet online genis merc ve oyun teklifleri - December 26, 2024
- Mostbet Casino: Oyuncularin Guvendigi Adres - December 24, 2024
- Bahis Yapmanin Yollari Mostbet Platformunda - December 21, 2024
Leave a Reply