Semalt: 3 Langkah Untuk Menggores Halaman Web PHP

Pengikisan web, juga disebut ekstraksi data web atau pemanenan web, adalah proses mengekstraksi data dari situs web atau blog. Informasi ini kemudian digunakan untuk menetapkan tag meta, deskripsi meta, kata kunci, dan tautan ke situs, meningkatkan kinerja keseluruhannya dalam hasil mesin pencari.

Dua teknik utama digunakan untuk mengikis data:

  • Penguraian dokumen - Ini melibatkan dokumen XML atau HTML yang dikonversi ke file DOM (Document Object Model). PHP memberi kami ekstensi DOM yang luar biasa.
  • Ekspresi reguler - Ini adalah cara mengikis data dari dokumen web dalam bentuk ekspresi reguler.

Masalah dengan data pengikisan situs web pihak ketiga terkait dengan hak cipta karena Anda tidak memiliki izin untuk menggunakan data ini. Tetapi dengan PHP, Anda dapat dengan mudah mengikis data tanpa masalah terhubung dengan hak cipta atau kualitas rendah. Sebagai seorang programmer PHP, Anda mungkin memerlukan data dari berbagai situs web untuk keperluan pengkodean. Di sini kami telah menjelaskan cara mendapatkan data dari situs lain secara efisien, tetapi sebelum itu, Anda harus ingat bahwa pada akhirnya Anda akan mendapatkan file index.php atau scrape.js.

Langkah1: Buat Formulir untuk memasukkan URL Situs Web:

Pertama-tama, Anda harus membuat formulir di index.php dengan mengklik tombol Kirim dan masukkan URL situs web untuk menggores data.

<form method = "post" name = "scrape_form" id = "scrap_form" acti>

Masukkan URL Situs Web Untuk Mengikis Data

<input type = "input" name = "website_url" id = "website_url">

<input type = "submit" name = "submit" value = "Kirim">

</form>

Langkah2: Buat Fungsi PHP untuk Mendapatkan Data Situs Web:

Langkah kedua adalah membuat goresan fungsi PHP di file scrape.php karena akan membantu mendapatkan data dan menggunakan pustaka URL. Ini juga akan memungkinkan Anda untuk terhubung dan berkomunikasi dengan berbagai server dan protokol tanpa masalah.

function scrapeSiteData ($ website_url) {

if (! function_exists ('curl_init')) {

die ('cURL tidak diinstal. Silakan instal dan coba lagi.');

}

$ curl = curl_init ();

curl_setopt ($ curl, CURLOPT_URL, $ website_url);

curl_setopt ($ curl, CURLOPT_RETURNTRANSFER, true);

$ output = curl_exec ($ curl);

curl_close ($ curl);

mengembalikan $ output;

}

Di sini, kita dapat melihat apakah PHP cURL telah diinstal dengan benar atau tidak. Tiga cURL utama harus digunakan di area fungsi dan curl_init () akan membantu menginisialisasi sesi, curl_exec () akan menjalankannya dan curl_close () akan membantu menutup koneksi. Variabel-variabel seperti CURLOPT_URL digunakan untuk mengatur URL situs web yang perlu kita gesek. CURLOPT_RETURNTRANSFER kedua akan membantu menyimpan halaman yang tergores dalam bentuk variabel daripada bentuk default, yang pada akhirnya akan menampilkan seluruh halaman web.

Langkah3: Mengikis Data Spesifik dari Situs Web:

Saatnya untuk menangani fungsi file PHP Anda dan mengikis bagian tertentu dari halaman web Anda. Jika Anda tidak ingin semua data dari URL tertentu, Anda harus mengedit menggunakan variabel CURLOPT_RETURNTRANSFER dan sorot bagian yang ingin Anda gesek.

if (isset ($ _ POST ['submit'])) {

$ html = scrapeWebsiteData ($ _ POST ['website_url']);

$ start_point = strpos ($ html, 'Posting Terbaru');

$ end_point = strpos ($ html, '', $ start_point);

$ length = $ end_point- $ start_point;

$ html = substr ($ html, $ start_point, $ length);

echo $ html;

}

Kami menyarankan Anda untuk mengembangkan pengetahuan dasar tentang PHP dan Ekspresi Reguler sebelum Anda menggunakan salah satu kode ini atau mengikis blog atau situs web tertentu untuk tujuan pribadi.

mass gmail