Connect with us

Linux

Come usare htmlq per estrarre contenuto da file HTML su Linux


mLa maggior parte di noi usa l’amore e usa il comando jq. Funziona su sistemi simili a Linux o Unix per estrarre dati da documenti JSON. Recentemente ho trovato htmlq, che è come jq e scritto in Rust lang. Immagina di essere in grado di eseguire sed o grep per i dati HTML. Possiamo cercare, suddividere e filtrare i dati HTML con htmlq. Vediamo come installare e utilizzare questo pratico strumento su Linux o Unix e giocare con i dati HTML.

Che cos’è lo strumento htmlq?

È come jq, ma per HTML. Utilizza i selettori CSS per estrarre frammenti di contenuto dai file HTML. In CSS, i selettori vengono utilizzati per indirizzare gli elementi HTML sulle nostre pagine Web a cui vogliamo applicare lo stile. Ad esempio, possiamo estrarre facilmente le immagini o altri URL utilizzando questo strumento.

Installazione di htmlq su Linux o Unix

Ecco come installare cargo e rustc su Ubuntu o Debian Linux usando il comando apt/apt-get:
sudo apt install cargo
Quindi eseguiresti:
cargo install htmlq

Solo guide per i sostenitori di Patreon 🤓

  • Nessuna pubblicità e tracciamento
  • Guide approfondite per sviluppatori e amministratori di sistema su Opensourceflare✨
  • Unisciti al mio Patreon per supportare i creatori di contenuti indipendenti e iniziare a leggere le ultime guide:

Aderire Patreon ?

macOS durante l’installazione del carico

Apri l’app Terminale, quindi esegui il comando port come segue:
sudo port install cargo
Oppure puoi installare Homebrew su macOS per utilizzare il gestore di pacchetti brew come segue:

brew install rustup # installs both cargo and rustc
rustup-init
rustc --version

Carico completo di FreeBSD

Userò il comando pkg come segue per installare rustc:
sudo pkg install rust
Scopri come installare Rust per altri sistemi operativi. Ora che ho sia gli strumenti rustc che quelli cargo, digito il seguente semplice comando per ottenere htmlq sul mio sistema di sviluppo:
cargo install htmlq

Hai installato Rust lang? Ora installa htmlq per divertimento e profitto usando il comando cargo.

Configura il tuo PERCORSO

Assicurati di aggiungere $HOME/.cargo/bin alla tua variabile PATH per poter eseguire i binari installati usando il comando export

# sh/bash/ksh etc
export PATH="$PATH:$HOME/.cargo/bin" 
 
# tcsh/csh etc
setenv PATH $PATH:$HOME/.cargo/bin

Come usare htmlq per estrarre contenuto da file HTML su Linux o Unix

Usiamo il comando curl per trovare parte di una pagina per ID:
curl -s url | htmlq '#css-selector'
curl -s url2 | htmlq '#css-selector'
curl -s https://www.cyberciti.biz/faq/ | htmlq --pretty '#content' | more

clicca per ingrandire

Troviamo tutti i link in una pagina. Per esempio:
curl -s https://www.nixcraft.com | htmlq --attribute href a

Ricevere aiuto

Esegui semplicemente:
htmlq --help

htmlq 0.0.1
Michael Maclean <michael@mgdm.net>
Runs CSS selectors on HTML
 
USAGE:
    htmlq [FLAGS] [OPTIONS] <selector>...
 
FLAGS:
    -h, --help                 Prints help information
    -w, --ignore-whitespace    When printing text nodes, ignore those that consist entirely of whitespace
    -p, --pretty               Pretty-print the serialised output
    -t, --text                 Output only the contents of text nodes inside selected elements
    -V, --version              Prints version information
 
OPTIONS:
    -a, --attribute <attribute>    Only return this attribute (if present) from selected elements
    -f, --filename <FILE>          The input file. Defaults to stdin
    -o, --output <FILE>            The output file. Defaults to stdout
 
ARGS:
    <selector>...    The CSS expression to select

Riassumendo

L’htmlq è davvero uno strumento adorabile e mi è piaciuto molto. Controlla il codice sorgente di Github. Provalo e fammi sapere cosa ti piace nella sezione commenti qui sotto.


ANNUNCIO



Ti e piaciuto questo articolo?
Supporta il mio lavoro, facendo una donazione!

Click to comment

Leave a Reply

Esegui l'accesso per Commentare

Di tendenza

Questo sito utilizza i cookie per migliorare servizi ed esperienza dei lettori. Se decidi di continuare la navigazione senza blocchi premi su Accetto, oppure continua tranquillamente la navigazione, nessun dato sulla tua navigazione verrà raccolto.
Privacy Settings saved!
Impostazioni

Quando visiti un sito Web, esso può archiviare o recuperare informazioni sul tuo browser, principalmente sotto forma di cookies. Controlla qui i tuoi servizi di cookie personali.

Questi cookie sono necessari per il funzionamento del sito Web e non possono essere disattivati nei nostri sistemi.

Per utilizzare questo sito web usiamo i seguenti cookie tecnici necessari:
  • wordpress_test_cookie
  • wordpress_logged_in_
  • wordpress_sec
  • swpm_session

Rifiuta tutti i Servizi
Accetta tutti i Servizi