pywhois: whois/__init__.py@fc06c601b875 (annotated)

0 ea0e45971cea initial commit to mercurial Richard Baron Penman parents: diff changeset	1	import re
ea0e45971cea initial commit to mercurial Richard Baron Penman parents: diff changeset	2	import sys
29 1ebe960587b1 Read in all TLDs from a file Evgeni Kunev <evgeni.kunev@gmail.com> parents: 25 diff changeset	3	import os
0 ea0e45971cea initial commit to mercurial Richard Baron Penman parents: diff changeset	4	import subprocess
8 9cf495a1e2e9 added support for IP addresses Richard Baron Penman parents: 7 diff changeset	5	import socket
0 ea0e45971cea initial commit to mercurial Richard Baron Penman parents: diff changeset	6	from parser import WhoisEntry
ea0e45971cea initial commit to mercurial Richard Baron Penman parents: diff changeset	7	from whois import NICClient
ea0e45971cea initial commit to mercurial Richard Baron Penman parents: diff changeset	8
ea0e45971cea initial commit to mercurial Richard Baron Penman parents: diff changeset	9
60 7801a420f679 added support for native client Richard Penman parents: 38 diff changeset	10	def whois(url, command=False):
0 ea0e45971cea initial commit to mercurial Richard Baron Penman parents: diff changeset	11	# clean domain to expose netloc
25 f3c0a9a442aa avoid DNS lookup of IP addresses Richard Penman parents: 23 diff changeset	12	ip_match = re.match(r"^\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}$", url)
f3c0a9a442aa avoid DNS lookup of IP addresses Richard Penman parents: 23 diff changeset	13	if ip_match:
f3c0a9a442aa avoid DNS lookup of IP addresses Richard Penman parents: 23 diff changeset	14	domain = url
f3c0a9a442aa avoid DNS lookup of IP addresses Richard Penman parents: 23 diff changeset	15	else:
f3c0a9a442aa avoid DNS lookup of IP addresses Richard Penman parents: 23 diff changeset	16	domain = extract_domain(url)
60 7801a420f679 added support for native client Richard Penman parents: 38 diff changeset	17	if command:
7801a420f679 added support for native client Richard Penman parents: 38 diff changeset	18	# try native whois command
7801a420f679 added support for native client Richard Penman parents: 38 diff changeset	19	r = subprocess.Popen(['whois', domain], stdout=subprocess.PIPE)
7801a420f679 added support for native client Richard Penman parents: 38 diff changeset	20	text = r.stdout.read()
33 8c4c05eb65f4 Allow explicit usage of NICClient even if whois binary is available Evgeni Kunev <evgeni.kunev@gmail.com> parents: 31 diff changeset	21	else:
60 7801a420f679 added support for native client Richard Penman parents: 38 diff changeset	22	# try builtin client
0 ea0e45971cea initial commit to mercurial Richard Baron Penman parents: diff changeset	23	nic_client = NICClient()
ea0e45971cea initial commit to mercurial Richard Baron Penman parents: diff changeset	24	text = nic_client.whois_lookup(None, domain, 0)
ea0e45971cea initial commit to mercurial Richard Baron Penman parents: diff changeset	25	return WhoisEntry.load(domain, text)
ea0e45971cea initial commit to mercurial Richard Baron Penman parents: diff changeset	26
5 7ace7955a131 added support for japanese domains Richard Baron Penman parents: 0 diff changeset	27
0 ea0e45971cea initial commit to mercurial Richard Baron Penman parents: diff changeset	28	def extract_domain(url):
ea0e45971cea initial commit to mercurial Richard Baron Penman parents: diff changeset	29	"""Extract the domain from the given URL
ea0e45971cea initial commit to mercurial Richard Baron Penman parents: diff changeset	30
ea0e45971cea initial commit to mercurial Richard Baron Penman parents: diff changeset	31	>>> extract_domain('http://www.google.com.au/tos.html')
ea0e45971cea initial commit to mercurial Richard Baron Penman parents: diff changeset	32	'google.com.au'
60 7801a420f679 added support for native client Richard Penman parents: 38 diff changeset	33	>>> extract_domain('www.webscraping.com')
11 5083c26d8f93 added support for .pl domain Richard Baron Penman parents: 10 diff changeset	34	'webscraping.com'
22 1a6c1830d4bc added IP test cases Richard Penman parents: 14 diff changeset	35	>>> extract_domain('198.252.206.140')
8 9cf495a1e2e9 added support for IP addresses Richard Baron Penman parents: 7 diff changeset	36	'stackoverflow.com'
22 1a6c1830d4bc added IP test cases Richard Penman parents: 14 diff changeset	37	>>> extract_domain('102.112.2O7.net')
1a6c1830d4bc added IP test cases Richard Penman parents: 14 diff changeset	38	'2o7.net'
1a6c1830d4bc added IP test cases Richard Penman parents: 14 diff changeset	39	>>> extract_domain('1-0-1-1-1-0-1-1-1-1-1-1-1-.0-0-0-0-0-0-0-0-0-0-0-0-0-10-0-0-0-0-0-0-0-0-0-0-0-0-0.info')
1a6c1830d4bc added IP test cases Richard Penman parents: 14 diff changeset	40	'0-0-0-0-0-0-0-0-0-0-0-0-0-10-0-0-0-0-0-0-0-0-0-0-0-0-0.info'
0 ea0e45971cea initial commit to mercurial Richard Baron Penman parents: diff changeset	41	"""
22 1a6c1830d4bc added IP test cases Richard Penman parents: 14 diff changeset	42	if re.match(r'\d+\.\d+\.\d+\.\d+', url):
8 9cf495a1e2e9 added support for IP addresses Richard Baron Penman parents: 7 diff changeset	43	# this is an IP address
9cf495a1e2e9 added support for IP addresses Richard Baron Penman parents: 7 diff changeset	44	return socket.gethostbyaddr(url)[0]
11 5083c26d8f93 added support for .pl domain Richard Baron Penman parents: 10 diff changeset	45
31 92176112c2d6 Move tlds.txt to a data/ folder and add it to the package Evgeni Kunev <evgeni.kunev@gmail.com> parents: 29 diff changeset	46	tlds_path = os.path.join(os.getcwd(), os.path.dirname(__file__), 'data', 'tlds.txt')
29 1ebe960587b1 Read in all TLDs from a file Evgeni Kunev <evgeni.kunev@gmail.com> parents: 25 diff changeset	47	suffixes = [
1ebe960587b1 Read in all TLDs from a file Evgeni Kunev <evgeni.kunev@gmail.com> parents: 25 diff changeset	48	line.lower().strip()
1ebe960587b1 Read in all TLDs from a file Evgeni Kunev <evgeni.kunev@gmail.com> parents: 25 diff changeset	49	for line in open(tlds_path).readlines()
1ebe960587b1 Read in all TLDs from a file Evgeni Kunev <evgeni.kunev@gmail.com> parents: 25 diff changeset	50	if not line.startswith('#')
1ebe960587b1 Read in all TLDs from a file Evgeni Kunev <evgeni.kunev@gmail.com> parents: 25 diff changeset	51	]
1ebe960587b1 Read in all TLDs from a file Evgeni Kunev <evgeni.kunev@gmail.com> parents: 25 diff changeset	52
38 da8f2956db7e Ensure lookups work with both unicode and bytes objects Evgeni Kunev <evgeni.kunev@gmail.com> parents: 35 diff changeset	53	if type(url) is not unicode:
da8f2956db7e Ensure lookups work with both unicode and bytes objects Evgeni Kunev <evgeni.kunev@gmail.com> parents: 35 diff changeset	54	url = url.decode('utf-8')
da8f2956db7e Ensure lookups work with both unicode and bytes objects Evgeni Kunev <evgeni.kunev@gmail.com> parents: 35 diff changeset	55	url = re.sub('^.*://', '', url.encode('idna')).split('/')[0].lower()
0 ea0e45971cea initial commit to mercurial Richard Baron Penman parents: diff changeset	56	domain = []
35 0de2468a27e8 Fix extract_domain to work with unicode domains Evgeni Kunev <evgeni.kunev@gmail.com> parents: 33 diff changeset	57
38 da8f2956db7e Ensure lookups work with both unicode and bytes objects Evgeni Kunev <evgeni.kunev@gmail.com> parents: 35 diff changeset	58	for section in url.split('.'):
0 ea0e45971cea initial commit to mercurial Richard Baron Penman parents: diff changeset	59	if section in suffixes:
ea0e45971cea initial commit to mercurial Richard Baron Penman parents: diff changeset	60	domain.append(section)
ea0e45971cea initial commit to mercurial Richard Baron Penman parents: diff changeset	61	else:
ea0e45971cea initial commit to mercurial Richard Baron Penman parents: diff changeset	62	domain = [section]
35 0de2468a27e8 Fix extract_domain to work with unicode domains Evgeni Kunev <evgeni.kunev@gmail.com> parents: 33 diff changeset	63	return '.'.join(domain).decode('idna').encode('utf-8')
0 ea0e45971cea initial commit to mercurial Richard Baron Penman parents: diff changeset	64
ea0e45971cea initial commit to mercurial Richard Baron Penman parents: diff changeset	65
ea0e45971cea initial commit to mercurial Richard Baron Penman parents: diff changeset	66	if __name__ == '__main__':
ea0e45971cea initial commit to mercurial Richard Baron Penman parents: diff changeset	67	try:
ea0e45971cea initial commit to mercurial Richard Baron Penman parents: diff changeset	68	url = sys.argv[1]
ea0e45971cea initial commit to mercurial Richard Baron Penman parents: diff changeset	69	except IndexError:
60 7801a420f679 added support for native client Richard Penman parents: 38 diff changeset	70	print 'Usage: %s url' % sys.argv[0]
0 ea0e45971cea initial commit to mercurial Richard Baron Penman parents: diff changeset	71	else:
60 7801a420f679 added support for native client Richard Penman parents: 38 diff changeset	72	print whois(url)

author	Richard Penman
	Tue, 08 Sep 2015 11:09:02 +0800
changeset 62	fc06c601b875
parent 60	7801a420f679
child 70	1fe2c20adeba
permissions	-rw-r--r--