Crawl4AI para AgentesIA

juande2marin
abril 12, 2025

Sin duda el scraping va a crecer impulsado por la IA

Ahora todos los agentes IA necesitan una base del conocimiento para responder de forma precisa, justo eso es lo que se consigue con un scrapeo a una web con contenido de calidad.

Busca un buen contenido, extrae el contenido y usalo como base del conocimiento para tus agentes de asistencia IA.

Te explico como hacerlo…

Ver este vídeo en YouTube

Texto del vídeo:

Hoy vamos a scrapear con IA. Vamos a sacar toda la información que necesitamos de una tienda, en este caso de shop Ezoco. Para eso vamos a utilizar una librería que está ahora cogiendo mucha fuerza porque saca el contenido ayudándose de la inteligencia artificial. Esta es la librería: «Crawl for AI».

Empezamos por indicarle un esquema dónde está contenida la información en la web. A continuación, configuramos un modelo «Deep Seek» con su «API key» y le añadimos el prompt.
En las instrucciones le decimos qué es exactamente lo que queremos que extraiga. En el filtro le ponemos también los tokens que queremos que use y a continuación le pedimos que saque la información utilizando ese filtro.

Definida la estrategia de estracción de contenido y establecido filtro que hemos hecho con la IA, comenzamos la extracción y filtrado indicando la url de la página web que contiene la información.
Vamos a ver de dónde sacamos esta información. Primero tenemos que ver dónde están contenidas las fichas de los productos. Hemos visto que la ficha está en una etiqueta li, el nombre del producto en un h2, el precio en una etiqueta span y el enlace al producto en una etiqueta a. ¿De dónde hemos
sacado esto? Bueno, pues nos vamos a la tienda, le damos al botón derecho, inspeccionar, le damos a la flechita y vemos dónde está la información de cada uno de los productos, es decir, en qué etiquetas se guarda la información que necesitamos. Aquí la tengo ya. Como vemos la información de cada producto está dentro de una etiqueta «li» y dentro de ese de ese li tenemos, el contenido en el enlace, tenemos el h2 y tenemos el precio en un span clase «price». Pues eso es justo lo que hemos indicado en nuestro código. Hemos indicado que está en un h2 y le hemos puesto la clase CSS h2 para que la encuentre con más facilidad. Le hemos dicho que el precio está en un span con clase price y por último la etiqueta a, que está en esta clase.

Ejecutamos.

Hace el crawleo.

Ahora con el modelo LLM elegido, está dividiendo toda la información en pequeños cortes para manejar mejor el contenido. En este caso como es poca información, lo está haciendo en un solo corte.

Y aquí ya tenemos el contenido con lo que le hemos pedido: el producto, los precios y el enlace.

Impresionante.
La verdad es que «crawl for ai» ofrece muchas más posibilidades. Te Aconsejo explorarla un poco para ver cómo funciona la combinación de scrapear y la inteligencia artificial. Sin duda el futuro de los asistentes con IA.
Nada más por ahora. Nos vemos. Saludos.

Código:

from crawl4ai import AsyncWebCrawler, LLMConfig, LLMContentFilter, DefaultMarkdownGenerator, CrawlerRunConfig, CacheMode
from crawl4ai.extraction_strategy import JsonCssExtractionStrategy
import config
# Schema modificado para capturar más contenido
schema = {
    "name": "Articles",
    "baseSelector": "li",
    "fields": [
        {"name": "Productos", "selector": "h2.woocommerce-loop-product__title", "type": "text"},
        {"name": "Precios", "selector": "span.price", "type": "text"},
        {"name": "link", "selector": "a.woocommerce-LoopProduct-link.woocommerce-loop-product__link", "type": "attribute", "attribute": "href"},
    ]
}
estrategia = JsonCssExtractionStrategy(schema)
deep_config = LLMConfig(provider="deepseek/deepseek-chat", api_token = config.DEEPSEEK_API_KEY)
filter = LLMContentFilter(
    llm_config=deep_config,
    instruction="""
    Extrae todo el contenido relevante incluyendo:
    - Nombre de los productos
    - Precios de los productos
    - Enlaces de los productos

    Ignora:
    - Menús de navegación
    - Barras laterales
    - Pies de página
    - Publicidad
    - Elementos de UI no relevantes

    Asegúrate de capturar todos los productos y mantener su formato.
    """,
    chunk_token_threshold=1000,  # Aumentado para capturar más contenido
    verbose=True
)
con_ia = DefaultMarkdownGenerator(content_filter=filter)

run_conf = CrawlerRunConfig(markdown_generator=con_ia, extraction_strategy=estrategia)
async def ejecutar_crawler():
    async with AsyncWebCrawler() as crawler:
        resultado = await crawler.arun(url="https://ezoco.es/shopezoco/", config=run_conf)
        print("Extracción de contenido:", resultado.extracted_content)
        
await ejecutar_crawler()

Juande Marín

Profesor de Marketing digital, divulgador de inteligencia artificial y neuroeducación. Especializado en posicionamiento en buscadores y diseño web. Autor de varios libros relacionados con el comercio electrónico y el marketing digital (McGraw Hill, Paraninfo,…) Juande2marin

Comercio Electrónico GM

Diseño y elaboración de material de comunicación

Sistema de información de mercados

Comercio Electrónico en Negocios Alimentarios

Marketing Digital

Comercio Digital Internacional

¿Quién me pone el ROL de profesor?

El profesor o profesora debe seguir el mismo proceso de automatriculación del alumnado, y una vez completado el proceso debe solicitar que el gestor del campus le cambie el rol para que pueda acceder al contenido exclusivo del profesor. No se hace de forma automatizada para evitar filtraciones. Puede solicitar el cambio de ROL al mail: infor@comercioymarketing.es

¿Cómo doy de alta al alumnado?

Cada alumno puede darse de alta accediendo al Instituto y al módulo desde el el CAMPUS.comercioymarketing.es Durante el proceso tendrá que rellenar un formulario y al finalizar deberá introducir la clave de matriculación que se facilitará al profesor a través de correo electrónico: info@comercioymarketing.es

Presentación del campus.

¿Puedo descargar el ebook?

Todo el material está protegido por los derechos de autor y la Ley de Propiedad Intelectual. No se puede descargar ni difundir total o parcialmente. No obstante si algún alumno desea el material en formato papel podrá adquirirlo en la editorial LULU.com

Para localizar los libros se puede hacer una búsqueda en la propia web por título o autor: Juan de Dios Marín Peñas. Los libros en papel suelen estar promocionados para el alumnado matriculado (75% de descuento).

¿Se adapta a normativa?

Todo el material didáctico está adaptado al Real Decreto del Ciclo Formativo y responde a los Resultados de Aprendizaje que se deben alcanzar.

Para facilitar la evaluación se facilita un cuadro de actividades y su relación con los criterios de evaluación y RA.

¿Cómo se paga?

Los alumnos y alumnas pueden pagar directamente ingresando o transfiriendo el importe de la matrícula a la cuenta facilitada por el gestor del campus (info@comercioymarketing.es).

Para facilitar la identificación de los pagos se aconseja que se hagan de forma agrupada por clase y se identifique el Instituto cuando se haga el ingreso.

¿Cuánto cuesta?

El coste es de 7€ al año por cada uno de los módulos que contrate el alumno. El profesor y el Instituto no pagan nada. Estos 7€ da derecho a 9 meses de matriculación con acceso al material didáctico, vídeos, actividades, hosting, etc.