Blog of Jorge L Castro

Comparativas hdparm

2024-11-29T00:00:00+00:00

comando:

Raspberry pi 4

sudo hdparm -tT /dev/mmcblk0

Resultado: /dev/mmcblk0: ` Timing cached reads: 1858 MB in 2.00 seconds = 929.98 MB/sec Timing buffered disk reads: 104 MB in 3.03 seconds = 34.32 MB/sec`

Raspberry pi 5

sudo hdparm -tT /dev/nvme0n1p2

Resultado: /dev/nvme0n1p2: Timing cached reads: 9144 MB in 2.00 seconds = 4576.47 MB/sec Timing buffered disk reads: 2658 MB in 3.00 seconds = 885.48 MB/sec

Lap HP

/dev/mapper/ubuntu--vg-ubuntu--lv

Resultado: /dev/mapper/ubuntu--vg-ubuntu--lv: Timing cached reads: 26312 MB in 2.00 seconds = 13184.55 MB/sec Timing buffered disk reads: 306 MB in 3.01 seconds = 101.68 MB/sec

Scraping inicial terminado.md

2024-04-05T00:00:00+00:00

Terminé la parte de hacer scraping a la página inicial de un área en Airbnb, de hecho usé 4 zonas del área de Mazatlán, Sinaloa, para aumentar la cantidad de listings para hacer scraping.

El archivo con el que se inicia es scrape_page.py, el cual toma 4 links de Airbnb y les hace el scraping tanto a la página inicial como hasta 10 páginas máximo del paginado; se mandan parámetros de 30 días en el futuro, 3 noches de estancia y 2 huéspedes.

Para obtener el código donde residen los datos de los listings, ví que se manda dentro de un script en formato json:

scripts = soup_html.find_all("script", attrs={"type":"application/json", "id":"data-injector-instances"})

Y cada listing se obtiene en el siguiente nodo:

results = node["root > core-guest-spa"][1][1]["niobeMinimalClientData"][1][1]["data"]["presentation"]["staysSearch"]["results"]["searchResults"]

Así se ve el listing procesado a json:

Después de hacer el scraping completo de las 4 páginas base, se obtuvo un total de 1,692 registros, con los que haré Exploratory Data Analisys (EDA) en los siguientes posts, en los cuales inicialmente tendré que realizar las siguientes actividades:

Ver que los acentos se vean correctamente cuando los cargue en un DataFrame
estandarizar el campo roomTypeCategory
separar los valores del campo rating (calificación y evaluaciones)
análizar el campo de camas
cambiar el valor de price a número
analizar valores repetidos

Actualizando scraping inicial de airbnb

2024-04-03T00:00:00+00:00

Ok, cuando inicié el proyecto de scraping de Airbnb (aprox. agosto 2023), Airbnb mandaba datos distintos en la página inicial de un área geográfica, “pintaba” directamente en cards los textos de los listings, pero al día de hoy esto cambió y ahora manda los datos primero en un script en formato json y luego con javascript los pinta en el html de la página. Por la forma en la que hago scraping (requests + BeautifulSoup) tengo que extraer los datos del script/json.

Por tanto, tuve que ver de nuevo cómo se hace el scraping de este nuevo código, por lo que hice la siguiente página openhtml.py, que lee el html del request de una página y procesa los datos, ya con esto se puede integrar de nuevo a esta parte del proyecto.

from bs4 import BeautifulSoup
import os
import json

path_file_ini = './data/pages/1-a040284b-1310-4af7-b429-1039cfd22971.html'
html = ''
listings=[]

if os.path.isfile(path_file_ini):
    print("from disk")
    with open(path_file_ini, "r", encoding="utf-8") as file:
        html = file.read()

        soup_html = BeautifulSoup(html, "html.parser")
        scripts = soup_html.find_all("script", attrs={"type":"application/json", "id":"data-injector-instances"})

        if(len(scripts) >= 1):
            node = json.loads(scripts[0].text)
            results = node["root > core-guest-spa"][1][1]["niobeMinimalClientData"][1][1]["data"]["presentation"]["staysSearch"]["results"]["searchResults"]
            
            for result in results:
                listing = result["listing"]
                print(f'{type(listing)} {listing["id"]}')

                room = {}
                room["id"] = listing["id"]
                room["title"] = listing["title"]
                room["name"] = listing["name"]
                room["roomTypeCategory"] = listing["roomTypeCategory"]
                room["latitude"] = listing["coordinate"]["latitude"]
                room["longitude"] = listing["coordinate"]["longitude"]
                room["rating"] = listing["avgRatingLocalized"]
                room["beds"] = ""

                if listing["structuredContent"]["primaryLine"] is not None and len(listing["structuredContent"]["primaryLine"]) > 0:
                    if "body" in listing["structuredContent"]["primaryLine"][0]:
                        room["beds"] = listing["structuredContent"]["primaryLine"][0]["body"]

                if "price" in result["pricingQuote"]["structuredStayDisplayPrice"]["primaryLine"]:
                    room["price"] = result["pricingQuote"]["structuredStayDisplayPrice"]["primaryLine"]["price"]
                else:
                    if "discountedPrice":
                        room["price"] = result["pricingQuote"]["structuredStayDisplayPrice"]["primaryLine"]["discountedPrice"]

                room["price"] = room["price"].replace('\xa0',' ')

                print(room)

                listings.append(room)

print(f"\ntotal listings found: {len(listings)}")

Al ejecutar el script genera el siguiente resultado:

El siguiente paso sobre este html es obtener los links de las demás páginas del “paginado”, hacer el request de esas páginas (máximo 10 páginas) y repetir el scraping sobre esos request; este paso también es nuevo, porque parece que los links de páginas en la páginación vienen también en el json del script, ya veremos…

Proyecto DataScience/Airbnb/Scraping - Parte 1

2024-04-02T00:00:00+00:00

En este proyecto pretendo hacer scraping de los datos de Airbnb para la zona hotelera de Mazatlán, Sinaloa, México. La idea es tener una base de datos que me permita analizar:

Cuál es la tasa de ocupación de los listings disponibles en la zona
Cuál es el precio promedio de los listings publicados
Cuáles son las palabras claves de los listings más exitosos en el área
Cuáles son las características de los listings más exitosos en el área

En esta primer etapa intentaré hacer lo siguiente:

Hacer scraping de la página inicial de Airbnb para obtener listado de los listings disponibles en el área
Hacer scraping de la página principal del listing para oibtener los datos más importantes del listing
Guardar la información scrapeada en archivos json de cada listing
Guardar la información scrapeada en un archivo csv

Scraping mainpage airbnb

2024-04-02T00:00:00+00:00

En este post explico los primeros pasos para hacer scraping de la página inicial de un área geográfica en Airbnb y extraer los listings que se muestren en esa página.

Scraping de la página inicial de un área geográfica en Airbnb

Manualmente tomé las 4 siguientes urls de base, ya que sé que son las distintas áreas de Mazatlán, así que buscaré en las 10 primeras páginas de estas páginas base.

https://www.airbnb.mx/s/Mazatlan–Sinaloa–Mexico/
https://www.airbnb.mx/s/Palos-Prietos–Mazatl%C3%A1n–Sin.–M%C3%A9xico/
https://www.airbnb.mx/s/Centro–Mazatl%C3%A1n–Sin.–M%C3%A9xico/
https://www.airbnb.mx/s/cerritos–Mazatl%C3%A1n–Sin.–M%C3%A9xico/

Estableciendo parámetros iniciales del scraping

Sobre estas urls, mando llamar la función extract_listings con la url base y 3 parámetros preestablecidos para la búsqueda:

fecha: 20 días posteriores a la fecha actual
2 huéspedes
3 noches
se establece un máximo de 10 páginas de cada url base para extraer los listings

La página inicial con la que se hace el scraping es como la de la siguiente imagen:

Scraping de página principal de listing de Airbnb

Esta es la función que recibe la URL y hace un scraping de los primeros listings de la página con la función parseCards

def extract_listings(first_page_url, max_pages_scrape):

    listings = []
    print (f"{first_page_url}")

    url = first_page_url

    for i in range(1, max_pages_scrape+1):
        print(f"getting url {i}/{max_pages_scrape} {url[0:30]}...")

        try:
            r = requests.get(url)
            html = r.text

            name_file = f"./data/pages/{i}-{str(uuid.uuid4())}.html"
            with open(name_file, "w",encoding="utf-8") as file_json:
                file_json.write(html)

            print(f"got response: {len(html)/1024} KB")

            cards = parseCards(html)

            print(f'cards obtained: {len(cards)}')

            cards_to_txt(cards)

            for item in cards:
                listings.append(item)

            #get next url
            soup = BeautifulSoup(html, 'lxml')

            # Use the beautiful soup find function to get the links from the Next symbol html tag.
            np = soup.find('a', class_ = "l1ovpqvx c1ytbx3a dir dir-ltr")

            if np is None:
                break

            np = np.get("href")
            
            #create a new link with AirBNB.com as the host and concatenate the next page link.
            cnp = "https://www.airbnb.com" + np
            url = cnp

            wait = random.randint(3,8)

            print(f"\nnew url {url[0:50]}  w:{wait}")

            sleep(wait)
        
        except Exception as inst:
            print(f'error getting url...')
            print(type(inst))
            print(inst.args)     # arguments stored in .args
            print(inst) 
        
    return listings

Lenguajes de programación que uso

2023-07-28T10:04:10+00:00

Título 1

título 2

título 3

negritas