Selenium es una librería de Python que se utiliza para automatizar tareas en el navegador. Se puede utilizar para hacer pruebas automatizadas, descargar contenido de web y automatizar tareas en general. Para instalar Selenium Driver, se necesita tener Python y pip instalados. Luego, se puede instalar el paquete ejecutando el siguiente comando en la terminal: !pip install selenium
Una vez que el driver está instalado, se puede empezar a usar Selenium para automatizar tareas. Selenium es útil para automatizar tareas en el navegador, pero no se puede automatizar todo. Necesitas instalar en el ordenador chromedriver.exe que puedes descargar en este enlace cuando sepas la versión que tienes en tu ordenador. Chromedriver
Por ejemplo, no se puede automatizar tareas en el sistema operativo, como abrir y cerrar programas.
Selenium se puede utilizar con una variedad de navegadores web, incluyendo Google Chrome, Mozilla Firefox, Internet Explorer, Safari, etc. La ventaja de Selenium es que es fácil de usar y se puede integrar con otros frameworks y herramientas de testing.
¿Por qué elegir Selenium en Python?
Hay tres librerías principales que se utilizan para web scraping en Python: BeautifulSoup, Selenium y Scrapy. Cada una tiene sus propias ventajas y desventajas.
BeautifulSoup es la librería más fácil de usar. Es perfecto para proyectos pequeños o para principiantes. Sin embargo, no es tan potente como Selenium o Scrapy.
Selenium es una librería más avanzada que BeautifulSoup. Puede manejar sitios web dinámicos y requiere un poco más de conocimiento para usarla.
Scrapy es la librería más potente de las tres. Puede manejar grandes cantidades de datos y es perfecto para proyectos a gran escala. Sin embargo, requiere un poco más de experiencia para usarla.
Código Selenium en Python utilizado en el vídeo:
from selenium import webdriver
url="http://books.toscrape.com/"
driver = webdriver.Chrome()
driver.maximize_window()
driver.get(url)
articulos = driver.find_elements("xpath",'.//article[@class="product_pod"]/h3')
precios = driver.find_elements("xpath",'.//p[@class="price_color"]')
for articulo,precio in zip(articulos, precios):
titulo = articulo.text
precio_text = precio.text
print(titulo,precio_text)
Este contenido es parte del módulo de Comercio Digital Internacional
Juande Marín
Profesor de Marketing digital, divulgador de inteligencia artificial y neuroeducación. Especializado en posicionamiento en buscadores y diseño web. Autor de varios libros relacionados con el comercio electrónico y el marketing digital (McGraw Hill, Paraninfo,…) Juande2marin