Реклама на сайте  Реклама   
  Портал для веб-мастера: Учебники, скрипты, статьи, html-шаблоны, flash-исходники, каталог шрифтов, форумы...
Все для веб-мастера: статьи, учебники, шрифты, e-books
Навигация
  Главная
  Исходники
  Шаблоны
  Галерея
  Шрифты
  E-books
  Скрипты
  Статьи
  E-mail
  Хостинг

Рекомендуем


oui.ru парфюмерия накопительные скидки.

Работа для веб-мастера

О статье:
Опубликована: 07.02.06
Прочтений: 9180
Символов: 8245
Размер шрифта:
Все для веб-мастера: статьи, учебники, шрифты, e-books
 
Статьи » Python » Определение страны по IP-адресу   


Определение страны по IP-адресу

  • Автор: Д.С.Откидач
  • Источник: www.python.ru
  • Версия для печати
  • Статья показывает, как с помощью небольшого модуля можно корректно определить по IP-адресу страну, в которой он зарегистрирован. А класс IPRangeDB послужит примером, как можно организовать хранение информации с быстрым доступом для диаппазона значений.

    При сборе статистики посещения web-страниц часто собирается информация о количестве посетителей из разных стран. Как правило, страну определяют по домену первого уровня. Но такая информация не всегда соответствует действительности, особенное учитывая нынешнюю тендецию использовать национальные домены co, tv не по назначению. Кроме того, как быть с доменами общего пользования net, org, com и др.? С IP-адресами, для которых нет записей в реверсной зоне? Ну и, наконец, определение доменного имени отнимает заметное количество времени.

    Приведенный в статье код распространяется под лицензией в стиле Python, то есть может быть использован для любых (в том числе коммерческих целей) при условии сохранения замечания об авторском праве Copyright © 2002, Denis S. Otkidach <ods@ods.pp.ru>.

    Данные о регистрации диаппазонов IP-адресов хранятся в базах данных whois. Чтобы предоставить возможность общественности анализировать трафик, RIPE NCC, ARIN и APNIC не реже, чем раз в месяц, делают сокращенные "снимки" своих баз данных. Именно из этих данных мы и составим локальную базу.

    Но сначала нужно эффективно оргазовать хранение данных для диаппазонов IP-адресов, чтобы обеспечить к ним быстрый доступ. За основу возмем BTree базу BerkleyDB, доступ к которой обеспечивает функция btopen() из стандартного модуля bsddb. В качестве ключей будем использовать начало диаппазона IP-адресов, а в качестве значений — его конец и дополнительную информацию. Ключи и значения в bsddb должны быть строками. Кроме того, необходимо обеспечить упорядоченность ключей. Для этого очень хорошо подходит функции inet_aton и inet_ntoa из модуля socket.

    from bsddb import btopen
    from socket import inet_aton, inet_ntoa
    
    
    class IPRangeDB:
    
        def __init__(self, filename, mode='r'):
            self.__db = btopen(filename, mode)
    
        def close(self):
            self.__db.close()
    
        def _locate(self, ip):
            db = self.__db
            try:
                first, record = db.set_location(ip)
            except KeyError:
                try:
                    first, record = db.last()
                except KeyError:
                    raise KeyError(inet_ntoa(ip))
            else:
                if first!=ip:
                    first, record = db.previous()
            assert first<=ip
            return first, record
    
        def __getitem__(self, ip_str):
            ip = inet_aton(ip_str)
            first, record = self._locate(ip)
            last = record[:4]
            assert last>=first
            if ip<=last:
                return self.unpack(record[4:])
            else:
                raise KeyError(ip_str)
    
        def add(self, first_str, last_str, info):
            first = inet_aton(first_str)
            last = inet_aton(last_str)
            try:
                db_first, record = self._locate(last)
            except KeyError:
                pass
            else:
                db_last = record[:4]
                if first<=db_last:
                    raise ValueError(
                        'Range %s-%s intersects ' % (first_str, last_str) +
                        'with existing entry %s-%s' %
                                (inet_ntoa(db_first), inet_ntoa(db_last)))
            self.__db[first] = last+self.pack(info)
    
        def pack(self, info):
            return info
    
        def unpack(self, info):
            return info

    Метод _locate() ищет запись с максимальной нижней границей, меньшей или равной IP-адресу, переданному в качестве аргумента. Метод __getitem__() позволяет использовать экземпляры класса IPRangeDB аналогично словарям: db[ip] вернет информацию о диаппазоне, в который входит адрес ip. Использовать интерфейс словаря для записи врядли будет хорошей идеей, так как запись создается одна для всего диаппазона. Чтобы избежать путаницы, добавление записей реализовано через метод add(). И, наконец, пара методов pack() и unpack() определены, чтобы производный класс можно было легко адоптировать для хранения произвольной информации, метод pack() должен преобразовывать объект в строку.

    >>> db = IPRangeDB('test.db', 'c')
    >>> db.add('10.0.0.0', '10.255.255.255', 'Наша локальная сеть')
    >>> print db['10.1.2.3']
    Наша локальная сеть
    >>> print db['123.45.67.89']
    Traceback (most recent call last):
      File "<stdin>", line 1, in ?
      File "ip2cc.py", line 38, in __getitem__
        raise KeyError(ip_str)
    KeyError: 123.45.67.89

    Осталось дело за малым: определить методы для наполнения базы данных.

    
    from urllib import urlopen
    from xreadlines import xreadlines
    from time import strptime
    import struct
    
    
    class CountryByIP(IPRangeDB):
    
        sources = {
            'arin'   : ('ftp://ftp.arin.net/pub/stats/arin/',   'arin.%Y%m%d'),
            'ripencc': ('ftp://ftp.ripe.net/ripe/stats/',       'ripencc.%Y%m%d'),
            'apnic'  : ('ftp://ftp.apnic.net/pub/stats/apnic/', 'apnic-%Y-%m-%d')
        }
    
        def fetch(self):
            for name in self.sources:
                fp = self.__openRecent(name)
    
    
                for line in xreadlines(fp):
                    parts = line.strip().split('|')
                    if len(parts)==7 and parts[2]=='ipv4' and \
                            parts[6] in ('allocated', 'assigned') and \
                            name==parts[0]:
                        first = parts[3]
                        first_int = struct.unpack('!i', inet_aton(first))[0]
                        last_int = first_int+int(parts[4])-1
                        last = inet_ntoa(struct.pack('!i', last_int))
                        try:
                            self.add(first, last, parts[1].upper())
                        except ValueError:
                            pass
    
        def __openRecent(self, name):
            uri, format = self.sources[name]
            files = []
            for line in xreadlines(urlopen(uri)):
                file = line.split()[-1]
                try:
                    dt = strptime(file, format)
                except ValueError:
                    pass
                else:
                    files.append((dt, file))
            files.sort()
            return urlopen(uri+files[-1][1])

    Метод __openRecent находит самый свежий "снимок" и возвращает файловый объект. Дата "снимка" определяется по имени файла по шаблону из словаря источников sources. Метод fetch анализирует данные, выбирает необходимое и добавляет в базу. Использование модуля xreadlines позволяет анализировать данные по мере поступления.

    Теперь можно наполнить базу

    
    >>> db = CountryByIP('test.db', 'n')
    >>> db.fetch()
    и использовать 
    >>> from socket import gethostbyname
    >>> db[gethostbyname('python.org')]
    'NL'

    Преобразование кода A2 в название страны по таблице ISO3166 пусть останется вам в качестве упражнения.

    P.S. С момента написания статьи форма предоставления данных немного изменилась и появился новый регистратор — LACNIC. Вы можете загрузить свежую версию ip2cc cо страницы проекта.

    Интерфейс к библиотеке GeoIP, написанной на C

    Оглавление | Наверх
    шлагбаум для парковки . Жесткие диски: внешние жесткие диски hitachi.
     
    Советуем!



    Счетчики


    На сайте Online:
    WMate.ru © 2004 - 2012
       Дизайн: Мурашов Олег
       CMS: PhpCh v 0.2
       Время выполения скрипта: 0.012