Изграждане на обхождаща програма с Libcurl
Libcurl е водеща библиотека за разработка на HTTP/S комуникации, тя поддържа и асинхронни връзки, а за единични HTTP/S заявки е проста и лесна. И все пак, за да напишете обхождаща програма, това е по-сложно, но е изпълнимо.
Предпочитан език би бил C или C++, а също така ще ви трябват някои библиотеки за анализ на HTML, за да извлечете връзките и друга информация от страницата.дигитална агенция
Можете да изтеглите скрепера/потърсача, който беше създаден за нас с помощта на C и Libcurl: c scraper
Създайте всичко сами
Опитът ни показва, че за основните технологии, които трябва да бъдат силно персонализирани и изградени за бързина, е по-добре да ги напишете сами, предполагаме, че имате много опитен програмист, който да се справи със задачата, точно както ние имаме в къщи.дигитална агенция Grow Easy
Разработихме собствен обхождащ софтуер, написан на C с BSD сокети и OpenSSL, собствени HTTP и HTML парсери. Написването на собствен обхождащ модул дава възможност за най-добра производителност, но цената е допълнително време за разработка.
Съображения, свързани с честотната лента
Разходите за честотна лента също са съществен фактор; някои хостове като OVH предоставят непремерена честотна лента в зависимост от скоростта на порта (100MB, 1GB).
Някои хостове като Amazon таксуват действителната честотна лента и в крайна сметка може да платите повече за честотната лента, отколкото за хардуера.реклами в Google Ads
Критериите за широчина на честотната лента означават, че може да се наложи да използвате хост, който изисква повече знания и опит, но дава евтина широчина на честотната лента, вместо да използвате лесен за използване като Amazon.
Как да създадете база данни за обратни връзки
След като вече имате данните, е време да ги съхраните. Колко данни планирате да имате? Десет милиарда обратни връзки ще отнемат 4-5 терабайта за съхранение на базата данни, за сравнение конкурентите (Ahrefs, Semrush) предлагат база данни с над 1 трилион обратни връзки.
Проблемите с базите данни с отворен код (например MySQL) са, че след 50 GB в хранилището скоростта на вмъкване се влошава експоненциално. За базата данни с обратни връзки има нужда от устойчива скорост на вмъкване, за нашите нужди тя беше около 50 000 вмъквания в секунда, а след 50 GB място за съхранение скоростта започна да спада, като при 200 GB място за съхранение тя беше толкова бавна, че беше неизползваема.SEO оптимизация на сайта
Amazon Redshift
Базата данни Amazon Redshift може лесно да се мащабира, за да има голямо хранилище, и не би трябвало да има същия проблем като решението с отворен код, но 10 терабайта пространство ще струват 30 000 USD месечно за SSD хранилище.
Клъстерна база данни
Някои доставчици на хостинг предлагат клъстерирани MySQL или PostgreSQL в готов вид. Едно клъстерно решение може да заобиколи проблема със скоростта на въвеждане, ако всеки възел е ограничен до 200 GB памет.SEO оптимизация
Проблемът е, че клъстерното решение струва 10 000-20 000 USD на месец за десет терабайта памет, в зависимост от доставчика на хостинг.
Търговска база данни
Съществуват търговски бази данни, които могат да се справят с това натоварване, като например базата данни Oracle, не знаем каква е цената, базата данни Oracle е корпоративен продукт, може да не е подходяща за стартиращи фирми.
База данни Percona MySQL
Percona е компания, която е специализирана в оптимизацията на бази данни и има персонализирана версия за MySQL, MongoDB и PostgreSQL. Написахме дълга статия в Quora за изпитанията с базите данни и някой попита дали сме пробвали техния двигател Tuko, аз не го направих. Така че може да помогне, никога не сме го тествали.
Индивидуално решение за база данни
Решихме, че да плащаме по 10 000-20 000 долара на месец за база данни е твърде много. Освен това все още не сме изкарали нито стотинка, не е начинът да се справим, нямаме пари от VC, а тази сума оказва голям натиск върху финансите.
Решихме да разработим персонализирана база данни, която да се справя с натоварването при вмъкване и селектиране. Можем да я хостваме за 350 долара месечно, но изграждането ѝ ни отне две години, така че разменихме време за пари.
Можете да прочетете статията ни за това каква база данни използваме (намек: ние я създадохме), тя обхваща по-подробно ограниченията на сегашните бази данни и как ги решихме.
Интеграция и графичен потребителски интерфейс за инструменти за обратни връзки
Сега, след като сте получили базата данни и обхождащата програма, е време да интегрирате и да се уверите, че сте изградили приятелски графичен интерфейс, така че хората да могат да виждат усилията си за изграждане на връзки.
За уеб SAAS има няколко езика, които хората използват: PHP, NodeJS. Ние използваме PHP и персонализирана тема за HTML; по-нататък в тази статия ще разгледаме повече подробности за разработването на графичен интерфейс.
Нашият API за обратни връзки
Нашият API позволява да се получи цялата информация за обратните връзки по отношение на даден сайт: Обратните връзки, изходящите връзки, водещите страници, препращащите домейни, класификацията на препращащите домейни, водещите котви и др.
Нашият API може да се използва за изграждане на:
Безплатни SEO инструменти като магнити за водещи клиенти.
Търговски SEO инструменти.
Инструменти за вътрешни проучвания за изграждане на връзки.
Други инструменти за интернет маркетинг.
Вижте подробности за нашия API за обратни връзки.