analisis-kueri-tingkat-halaman-berskala-dengan-google-colab,-python,-&-amp;-gsc-api-[termasuk-instruksi-video]

Analisis Kueri Tingkat Halaman Berskala dengan Google Colab, Python, & amp; GSC API [Termasuk Instruksi Video]


Oleh: Jason Melman

Analisis Kueri Tingkat Halaman Berskala dengan Google Colab, Python, & amp; GSC API [Video Instructions Included]

Pandangan penulis sepenuhnya adalah miliknya (tidak termasuk peristiwa hipnosis yang tidak mungkin terjadi) dan mungkin tidak selalu mencerminkan pandangan Moz.

Daftar putar YouTube yang direferensikan di seluruh blog ini dapat ditemukan di sini: 6 Bagian Seri YouTube [Setting Up & Using the Query Optimization Checker]

Siapa pun yang melakukan SEO sebagai bagian dari pekerjaannya tahu bahwa ada banyak manfaat dalam menganalisis kueri mana adalah dan tidak mengirimkan lalu lintas ke halaman tertentu di situs.

Kegunaan paling umum untuk kumpulan data ini adalah untuk menyelaraskan pengoptimalan di halaman dengan peringkat dan lalu lintas yang ada, dan untuk mengidentifikasi celah dalam kata kunci peringkat.

Namun, bekerja dengan data ini sangat membosankan karena hanya tersedia di antarmuka Google Search Console, dan Anda hanya perlu melihat satu halaman dalam satu waktu.

Selain itu, untuk mendapatkan informasi tentang teks yang termasuk dalam halaman peringkat, Anda perlu memeriksanya secara manual atau mengekstraknya dengan alat seperti Screaming Frog.

Anda membutuhkan pandangan seperti ini:

… Tetapi bahkan tampilan di atas hanya akan dapat dijalankan satu halaman pada satu waktu, dan seperti yang disebutkan, ekstraksi teks yang sebenarnya harus dipisahkan juga.

Mengingat masalah yang jelas terlihat pada data yang tersedia di pembuangan komunitas SEO, tim teknik data di Inseev Interactive telah menghabiskan banyak waktu untuk memikirkan tentang bagaimana kami dapat meningkatkan proses ini dalam skala besar.

Satu contoh spesifik yang akan kami ulas dalam posting ini adalah skrip sederhana yang memungkinkan Anda mendapatkan data di atas dalam format yang fleksibel untuk banyak tampilan analitis yang bagus.

Lebih baik lagi, ini semua akan tersedia hanya dengan beberapa variabel masukan tunggal.

Ikhtisar singkat tentang fungsionalitas alat

Alat tersebut secara otomatis membandingkan teks di halaman dengan Google Search Console kueri teratas pada tingkat halaman untuk memberi tahu Anda kueri mana yang ada di halaman serta berapa kali kueri tersebut muncul di halaman. Variabel XPath opsional juga memungkinkan Anda menentukan bagian halaman tempat Anda ingin menganalisis teks.

Ini berarti Anda akan tahu persis kueri apa yang mendorong klik / tayangan yang tidak ada di & lt; judul & gt ;, & lt; h1 & gt ;, atau bahkan sesuatu yang spesifik seperti paragraf pertama dalam konten utama (MC). Langit adalah batasnya.

Bagi Anda yang belum terbiasa, kami juga menyediakan beberapa ekspresi XPath cepat yang dapat Anda gunakan, serta cara membuat ekspresi XPath khusus situs dalam bagian “Variabel Input” pada pos.

Penggunaan pasca penyiapan & amp; kumpulan data

Setelah proses disiapkan, yang diperlukan hanyalah mengisi daftar pendek variabel dan sisanya otomatis untuk Anda.

Dataset keluaran mencakup beberapa set data CSV otomatis, serta format file terstruktur untuk menjaga semuanya tetap teratur. Poros sederhana dari analisis inti CSV otomatis dapat memberi Anda kumpulan data di bawah ini dan banyak tata letak berguna lainnya.

… Bahkan beberapa “metrik baru”?

Oke, secara teknis tidak “baru”, tetapi jika Anda secara eksklusif menggunakan antarmuka pengguna Google Search Console, kemungkinan Anda belum memiliki akses ke metrik seperti ini sebelumnya: “Posisi Maks”, “Posisi Minimum”, dan “Posisi Hitung” untuk rentang tanggal yang ditentukan – semuanya dijelaskan di bagian “Menjalankan analisis pertama Anda” pada postingan.

Untuk benar-benar mendemonstrasikan dampak dan kegunaan kumpulan data ini, dalam video di bawah ini kami menggunakan alat Colab untuk:

  • [3 Minutes] – Temukan non-merek & lt; judul & gt; peluang pengoptimalan untuk https://www.inseev.com/ (sekitar 15 halaman dalam video, tetapi Anda dapat melakukan sejumlah halaman)

  • [3 Minutes] – Ubah CSV ke format yang lebih bisa digunakan

  • [1 Minute] – Optimalkan judul pertama dengan dataset yang dihasilkan

  • Oke, Anda sudah siap untuk jadwal awal. Semoga kami dapat membuat Anda bersemangat sebelum beralih ke proses penyiapan yang agak membosankan.

    Ingatlah bahwa di akhir posting, ada juga bagian yang menyertakan beberapa kasus penggunaan yang berguna dan contoh template! Untuk melompat langsung ke setiap bagian posting ini, silakan gunakan tautan berikut:

    [Quick Consideration #1] – Pengikis web yang terpasang pada alat TIDAK mendukung rendering JavaScript. Jika situs web Anda menggunakan perenderan sisi klien, sayangnya fungsionalitas penuh alat tidak akan berfungsi.

    [Quick Consideration #2] – Alat ini telah banyak diuji oleh anggota tim Inseev. Sebagian besar bug [specifically with the web scraper] telah ditemukan dan diperbaiki, tetapi seperti program lain, masalah lain mungkin muncul.

    • Jika Anda mengalami kesalahan, silakan hubungi kami langsung di jmelman@inseev.com atau info@inseev.com , dan saya atau salah satu anggota lain dari tim teknik data di Inseev akan dengan senang hati membantu Anda.

    • Jika kesalahan baru ditemukan dan diperbaiki, kami akan selalu mengunggah skrip yang diperbarui ke repositori kode yang ditautkan di bagian di bawah ini sehingga kode terbaru dapat digunakan oleh semua!

    Hal-hal yang Anda perlukan:

  • google Drive

  • Akun Google Cloud Platform

  • Akses Google Search Console

  • Panduan video: proses penyiapan alat

    Di bawah ini Anda akan menemukan petunjuk editorial langkah demi langkah untuk menyiapkan seluruh proses. Namun, jika mengikuti petunjuk editorial bukan metode pilihan Anda, kami juga merekam video proses penyiapan.

    Seperti yang akan Anda lihat, kami mulai dengan Gmail baru dan menyiapkan seluruh proses kira-kira 12 menit, dan hasilnya sepadan dengan waktu.

    Perlu diingat bahwa penyiapannya hanya satu kali, dan setelah disiapkan, alat tersebut akan bekerja sesuai perintah mulai saat itu!

    Panduan editorial: proses penyiapan alat

    Empat- bagian proses:

  • Unduh file dari Github dan siapkan di Google Drive

  • Siapkan Project Google Cloud Platform (GCP) (lewati jika Anda sudah memiliki akun)

  • Buat ID klien OAuth 2.0 untuk Google Search Console (GSC) API (lewati jika Anda sudah memiliki ID klien OAuth dengan Search Console API diaktifkan)

  • Tambahkan kredensial OAuth 2.0 ke file Config.py

  • Bagian satu: Unduh file dari Github dan atur di Google Drive

    Unduh file sumber (tidak perlu kode)

    1. Bernavigasi sini .

    2. Pilih “Kode” & gt; “Unduh Zip”

    *Anda juga bisa menggunakan ' git clone https://github.com/jmelm93 / query-optmization -checker.git '

    Jalankan Google Colab di Google Drive

    Jika Anda sudah memiliki pengaturan Google Colaboratory di Google Drive Anda, silakan lewati langkah ini.

    1. Bernavigasi sini .

    2. Klik “Baru” & gt; “Lainnya” & gt; “Hubungkan lebih banyak aplikasi”.

    3. Cari “Kolaboratori” & gt; Klik ke halaman aplikasi.

    4. Klik “Pasang” & gt; “Lanjutkan” & gt; Masuk dengan OAuth.

    5. Klik “OK” dengan prompt yang dicentang sehingga Google Drive secara otomatis menyetel file yang sesuai untuk dibuka dengan Google Colab (opsional).

    Impor folder yang diunduh ke Google Drive & amp; buka di Colab

    1. Arahkan ke Google Drive dan buat folder bernama “Colab Notebooks”.

    PENTING : Folder harus bernama “Colab Notebooks” karena skrip dikonfigurasi untuk mencari folder “api” dari dalam “Colab Notebooks”.

    Kesalahan mengakibatkan penamaan folder yang tidak tepat.

    2. Impor folder yang diunduh dari Github ke Google Drive.

    Di akhir langkah ini, Anda akan memiliki folder di Google Drive Anda yang berisi item di bawah ini:

    Bagian dua: Siapkan project Google Cloud Platform (GCP)

    Jika Anda sudah memiliki akun Google Cloud Platform (GCP), lewati bagian ini.

    1. Arahkan ke Google Cloud halaman.

    2. Klik CTA “Mulai gratis” (teks CTA dapat berubah seiring waktu).

    3. Masuk dengan kredensial OAuth pilihan Anda. Semua email Gmail akan berfungsi.

    4. Ikuti petunjuk untuk mendaftar ke akun GCP Anda.

    Anda akan diminta untuk memberikan kartu kredit untuk mendaftar, tetapi saat ini ada $ 300 uji coba gratis dan Google mencatat bahwa mereka tidak akan menagih Anda sampai Anda meningkatkan akun.

    Bagian tiga: Buat ID klien 0Auth 2.0 untuk Google Search Console (GSC) API

    1. Bernavigasi sini .

    2. Setelah Anda masuk ke akun Google Cloud yang Anda inginkan, klik “AKTIFKAN”.

    3. Konfigurasi layar persetujuan.

    • Dalam proses pembuatan layar persetujuan, pilih “Eksternal”, lalu lanjutkan ke “Informasi Aplikasi”.

    Contoh di bawah persyaratan minimum:

    • Lewati “Cakupan”
    • Tambahkan email yang akan Anda gunakan untuk autentikasi API Search Console ke dalam “Pengguna Uji Coba”. Mungkin ada email lain atau hanya email yang memiliki Google Drive. Contohnya mungkin email klien tempat Anda mengakses UI Google Search Console untuk melihat KPI mereka.

    4. Di navigasi kiri, klik “Kredensial” & gt; “BUAT KREDENSIAL” & gt; “ID Klien OAuth” (Tidak dalam gambar).

    5. Di dalam formulir “Buat ID klien OAuth”, isi:

    • tipe aplikasi = Aplikasi desktop

    • Nama = Google Colab

    • Klik “BUAT”

    6. Simpan “ID Klien” dan “Rahasia Klien” – karena ini akan ditambahkan ke folder “api” file config.py dari file Github yang kita unduh.

    • Ini seharusnya muncul di munculan setelah menekan “BUAT”

    • “Rahasia Klien” secara fungsional adalah kata sandi ke Google Cloud Anda (JANGAN memposting ini ke publik / membagikannya secara online)

    Bagian empat: Tambahkan kredensial OAuth 2.0 ke file Config.py

    1. Kembali ke Google Drive dan arahkan ke folder “api”.

    2. Klik ke config.py.

    3. Pilih untuk membuka dengan “Editor Teks” (atau aplikasi lain pilihan Anda) untuk mengubah file config.py.

    4. Perbarui tiga area yang disorot di bawah ini dengan:

    • CLIENT_ID : Dari proses penyiapan ID klien OAuth 2.0

    • CLIENT_SECRET : Dari proses penyiapan ID klien OAuth 2.0

    • GOOGLE_CREDENTIALS : Email yang sesuai dengan CLIENT_ID Anda & amp; CLIENT_SECRET

    5. Simpan file setelah diperbarui!

    Selamat, hal-hal yang membosankan sudah berakhir. Sekarang Anda siap untuk mulai menggunakan file Google Colab!

    Menjalankan analisis pertama Anda mungkin sedikit mengintimidasi, tetapi tetap lakukan dan itu akan menjadi mudah dengan cepat.

    Di bawah ini, kami telah memberikan detail tentang variabel masukan yang diperlukan, serta catatan tentang hal-hal yang perlu diperhatikan saat menjalankan skrip dan menganalisis kumpulan data yang dihasilkan.

    Setelah kami menelusuri item-item ini, ada juga beberapa proyek contoh dan panduan video yang menunjukkan cara-cara untuk memanfaatkan kumpulan data ini untuk kiriman klien.

    Menyiapkan variabel masukan

    Ekstraksi XPath dengan variabel “xpath_selector”

    Pernahkah Anda ingin mengetahui setiap kueri yang mendorong klik dan tayangan ke laman web yang tidak ada di & lt; judul & gt; atau & lt; h1 & gt; menandai? Nah, parameter ini akan memungkinkan Anda melakukan hal itu.

    Meskipun opsional, penggunaan ini sangat dianjurkan dan kami merasa ini “membebani” analisis. Cukup tentukan bagian situs dengan Xpaths dan skrip akan melakukan sisanya.

    Dalam video di atas, Anda akan menemukan contoh tentang cara membuat ekstraksi khusus situs. Selain itu, di bawah ini adalah beberapa ekstraksi universal yang seharusnya berfungsi di hampir semua situs di web:

    • '//judul' # Mengidentifikasi & lt; title & gt; menandai

    • '// h1' # Mengidentifikasi & lt; h1 & gt; menandai

    • '// h2' # Mengidentifikasi & lt; h2 & gt; menandai

    Spesifik Situs: Bagaimana cara mengikis hanya konten utama (MC)?

    Chaining Xpaths – Tambahkan “|” Antara Xpaths

    • '// judul | // h1 ' # Memberi Anda & lt; title & gt; dan & lt; h1 & gt; tag dalam 1 run

    • '// h1 | // h2 | // h3 ' # Memberi Anda & lt; h1 & gt ;, & lt; h2 & gt; dan & lt; h3 & gt; tag dalam 1 run

    Variabel lainnya

    Berikut adalah ringkasan video tentang variabel lain dengan deskripsi singkat tentang masing-masing variabel.

    'colab_path' [Required] – Jalur tempat file Colab berada. Ini harus “https://feedpress.me/content/drive/My Drive / Colab Notebooks /”.

    'domain_lookup' [Required] – Beranda situs web yang digunakan untuk analisis.

    'tanggal mulai' & amp; 'tanggal akhir' [Required] – Rentang tanggal untuk periode analisis.

    'gsc_sorting_field' [Required] – Alat menarik halaman N teratas seperti yang ditentukan oleh pengguna. “Atas” ditentukan oleh “jumlah_klik” atau “jumlah_kesan”. Tinjau video untuk deskripsi yang lebih detail.

    'gsc_limit_pages_number' [Required] – Nilai numerik yang mewakili jumlah halaman yang dihasilkan yang Anda inginkan dalam kumpulan data.

    'brand_exclusions' [Optional] – Urutan string yang biasanya menghasilkan kueri bermerek (mis., Apa pun yang mengandung “inseev” akan menjadi kueri bermerek untuk “Inseev Interactive”).

    'impression_exclusion' [Optional] – Nilai numerik digunakan untuk mengecualikan kueri yang berpotensi tidak relevan karena kurangnya tayangan yang sudah ada sebelumnya. Ini terutama relevan untuk domain dengan peringkat kuat yang sudah ada sebelumnya pada sejumlah besar halaman.

    'page_inclusions' [Optional] – Urutan string yang ditemukan dalam jenis halaman analisis yang diinginkan. Jika Anda ingin menganalisis seluruh domain, biarkan bagian ini kosong.

    Menjalankan skrip

    Perlu diingat bahwa setelah skrip selesai dijalankan, Anda biasanya akan menggunakan file “step3_query-optimizer_domain-YYYY-MM-DD.csv” untuk analisis, tetapi ada juga yang lain dengan kumpulan data mentah untuk dijelajahi.

    Kasus penggunaan praktis untuk file “step3_query-optimizer_domain-YYYY-MM-DD.csv” dapat ditemukan di ” Kasus penggunaan dan template praktis “bagian.

    Karena itu, ada beberapa hal penting yang perlu diperhatikan saat menguji berbagai hal:

    1. Tidak Ada Perayapan JavaScript : Seperti yang disebutkan di awal posting, skrip ini TIDAK disiapkan untuk perayapan JavaScript, jadi jika situs web target Anda menggunakan frontend JS dengan perenderan sisi klien untuk mengisi konten utama (MC), goresan tidak akan berguna. Namun, fungsionalitas dasar untuk mendapatkan kueri dan halaman XX (yang ditentukan pengguna) dengan cepat masih dapat berguna dengan sendirinya.

    2. Google Drive / GSC API Auth : Pertama kali Anda menjalankan skrip di setiap sesi baru, Anda akan diminta untuk mengautentikasi kredensial Google Drive dan Google Search Console.

    • Otentikasi Google Drive: Otentikasi ke email apa pun terkait dengan Google Drive dengan skrip.

    • Otentikasi GSC: Otentikasi email mana saja yang memiliki izin untuk menggunakan akun Google Search Console yang diinginkan .
      • Jika Anda mencoba untuk mengautentikasi dan Anda mendapatkan kesalahan yang terlihat seperti di bawah ini, harap kunjungi kembali “Tambahkan email yang akan Anda gunakan untuk menggunakan aplikasi Colab ke dalam 'Uji Pengguna'” dari Bagian 3, langkah 3 di proses di atas: menyiapkan layar persetujuan.

    Tip cepat: Akun Google Drive dan Autentikasi GSC TIDAK harus email yang sama, tetapi memerlukan autentikasi terpisah dengan OAuth.

    3. Menjalankan skrip : Navigasikan ke “Waktu Proses” & gt; “Mulai Ulang dan Jalankan Semua” atau gunakan pintasan keyboard CTRL fn9 untuk mulai menjalankan skrip.

    4. Set data / struktur folder yang diisi : Ada tiga CSV yang diisi oleh skrip – semuanya bertingkat dalam struktur folder berdasarkan variabel masukan “domain_lookup”.

    • Organisasi Otomatis [Folders]: Setiap kali Anda menjalankan kembali skrip di domain baru, itu akan membuat struktur folder baru untuk menjaga semuanya tetap teratur.

    • Organisasi Otomatis [File Naming ]: CSV menyertakan tanggal ekspor yang ditambahkan di akhir, jadi Anda akan selalu tahu kapan proses berjalan serta rentang tanggal untuk kumpulan data tersebut .

    5. Rentang tanggal untuk set data : Di dalam kumpulan data, terdapat kolom “gsc_datasetID” yang dibuat, yang mencakup rentang tanggal ekstraksi.

    6. Metrik yang tidak dikenal : Dataset yang dihasilkan memiliki semua KPI yang kita kenal dan sukai – mis. klik, tayangan, posisi rata-rata (rata-rata) – tetapi ada juga beberapa yang tidak bisa Anda dapatkan langsung dari UI GSC:

    • 'count_instances_gsc' – jumlah kejadian kueri mendapatkan setidaknya 1 tayangan selama rentang tanggal yang ditentukan. Contoh skenario: GSC memberi tahu Anda bahwa Anda berada di posisi rata-rata 6 untuk kata kunci besar seperti “pengiriman bunga” dan Anda hanya menerima 20 tayangan di 30 – rentang tanggal hari. Tampaknya tidak mungkin Anda benar-benar berada di posisi 6, bukan? Nah, sekarang Anda dapat melihat itu berpotensi karena Anda hanya benar-benar muncul pada satu hari di hari itu 30 – rentang tanggal hari (misalnya count_instances_gsc = 1)

    • 'max_position' & amp; ' min_position ' – posisi peringkat MAKSIMUM dan MINIMUM yang menampilkan halaman yang diidentifikasi di Google Penelusuran dalam rentang tanggal yang ditentukan.

    Tip cepat # 1 : Variasi besar dalam maks / menit dapat memberi tahu Anda bahwa kata kunci Anda mengalami fluktuasi yang tinggi.

    Tip cepat # 2 : KPI ini, bersama dengan “count_instances_gsc”, dapat meningkatkan pemahaman Anda secara eksponensial tentang kinerja dan peluang kueri.

    Akses template multi guna yang direkomendasikan .

    Penggunaan yang disarankan : Unduh file dan gunakan dengan Excel. Secara subyektif, saya percaya Excel memiliki fungsionalitas tabel pivot yang jauh lebih ramah pengguna dibandingkan dengan Google Sheets – yang sangat penting untuk menggunakan template ini.

    Penggunaan alternatif: Jika Anda tidak memiliki Microsoft Excel atau Anda lebih memilih alat lain, Anda dapat menggunakan sebagian besar aplikasi spreadsheet yang berisi fungsionalitas pivot.

    Bagi mereka yang memilih perangkat lunak / aplikasi spreadsheet alternatif:

  • Berikut adalah bidang pivot untuk ditiru saat penyiapan.

  • Anda mungkin harus menyesuaikan fungsi Vlookup yang terdapat di tab “Langkah 3 _ Analisis Dokumen Akhir”, bergantung pada apakah kolom pivot Anda yang diperbarui sejajar dengan pivot saat ini yang telah saya berikan.

  • Contoh proyek: Judul & amp; Pengoptimalan ulang H1 (panduan video)

    Deskripsi Proyek : Temukan kata kunci yang mendorong klik dan tayangan ke laman bernilai tinggi dan yang tidak ada dalam & lt; judul & gt; dan & lt; h1 & gt; tag dengan meninjau KPI kueri GSC vs. elemen halaman saat ini. Gunakan temuan yang dihasilkan untuk mengoptimalkan kembali & lt; judul & gt; dan & lt; h1 & gt; tag untuk halaman yang sudah ada.

    Asumsi proyek: Proses ini mengasumsikan bahwa memasukkan kata kunci ke dalam & lt; judul & gt; dan & lt; h1 & gt; tag adalah praktik SEO yang kuat untuk pengoptimalan relevansi, dan penting untuk menyertakan varian kata kunci terkait ke dalam area ini (mis. kata kunci pencocokan tidak tepat dengan maksud SERP yang cocok).

    Contoh proyek: Penyegaran / pengoptimalan ulang teks di halaman

    Deskripsi Proyek : Temukan kata kunci yang mendorong klik dan tayangan ke konten editorial yang TIDAK ada dalam paragraf pertama dalam badan konten utama (MC). Lakukan penyegaran pada halaman konten pengantar dalam halaman editorial untuk memasukkan peluang kata kunci bernilai tinggi.

    Asumsi proyek: Proses ini mengasumsikan bahwa memasukkan kata kunci ke dalam beberapa kalimat pertama dari konten adalah praktik SEO yang kuat untuk pengoptimalan relevansi, dan penting untuk menyertakan varian kata kunci terkait ke dalam area ini (mis. Kata kunci pencocokan tidak tepat dengan maksud SERP yang cocok).

    Pikiran terakhir

    Kami berharap posting ini bermanfaat dan membuka Anda untuk gagasan menggunakan Python dan Google Colab untuk meningkatkan strategi pengoptimalan relevansi Anda.

    Seperti yang disebutkan di seluruh pos, perhatikan hal-hal berikut:

  • Repositori Github akan diperbarui dengan perubahan apa pun yang kami buat di masa mendatang.

  • Ada kemungkinan kesalahan yang belum ditemukan. Jika ini terjadi, Inseev dengan senang hati membantu! Faktanya, kami sangat menghargai Anda yang menghubungi untuk menyelidiki dan memperbaiki kesalahan (jika ada yang muncul). Dengan cara ini, orang lain tidak mengalami masalah yang sama.

  • Selain di atas, jika Anda memiliki ide tentang cara-cara Colab (permainan kata-kata) pada proyek analisis data, silakan hubungi kami dengan ide-ide.