culhu

Удалить строки, которые не содержат определенных слов, с помощью Блокнота ++

Компьютер должен помочь нам. Одним простым примером является удалить строки из текстового файла, который не содержит конкретного ключевого слова. Эта задача не легкая, но очень трудоемкая и утомительная. Недавно я потратил некоторое время на составление списка сайтов, которые копировали и публиковали статьи, взятые из этого блога, на их сайт. Хотя Google довольно хорошо определяет первоначального издателя, он все же остается роботом, основанным на постоянно меняющемся алгоритме, который может и допускает ошибки. Поиск сайтов, на которых скопированы сообщения, занимает очень много времени, поэтому я использовал Copyscape Premium для автоматического выполнения пакетного сканирования всех 2000 статей на этом сайте, чтобы отследить плагиат содержимого этого блога.

Copyscape Premium завершила сканирование всех 2000 сообщений всего за 10 часов, и мне удалось экспортировать результаты в файл CSV для дальнейшего изучения. В списке более 20 000 URL, и я хочу классифицировать сайты на основе доменных имен. Не все веб-сайты из списка являются подражателями, но большинство веб-сайтов, размещенных на бесплатных хостах, таких как blogspot / blogger / wordpress, являются либо скребками, либо копировщиками. После того, как URL-адреса распределены по категориям, я могу сосредоточиться на подаче жалобы DMCA в Blogger, а затем переходить на WordPress, а не переходить туда-сюда.
Пользователи Linux могут легко удалять строки, которые не содержат определенных слов, с помощью глобальной команды ex, но, к сожалению, нам нужно программное обеспечение для этого в Windows. Поскольку я пользователь Notepad ++, я обнаружил, что можно автоматически удалять строки, используя Notepad ++, когда указанное вами слово отсутствует. Вот пример того, как удалить строки, которые не содержат слово «blogspot.com», или другими словами, я хочу сохранить только строки, содержащие слово «blogspot».

1. Запустите Notepad ++, либо откройте текстовый файл, который вы хотите редактировать, либо вставьте текст в пустую страницу.
2. Перейдите в меню поиска и выберите «Найти».

3. Перейдите на вкладку «Пометить», установите флажок «Закладка строки», введите blogspot.com в поле «Найти» и нажмите кнопку «Пометить все». Синий значок будет добавлен в строку, которая содержит слово blogspot.com

Exit mobile version