我们在流式计算数据加工流程中,有个场景是实现一种基于流式数据里面ip转换成对应的归属地信息,这个场景首先想到是如何找一个符合条件的ip映射库,而这个ip映射库需满足如下条件:
1. 性能好:因为实时数据量大,每条数据都需要实时调用,获取ip映射关系,所以性能要好,如果延时较大,会影响后面流程节点处理;
2. 开源,能扩展:开源,能内网部署,并提供扩展功能,支持加新的ip映射关系;
3. 方便调用:支持api调用,且精准率要高。
Ip2region简介
目前Ip2region有1.0和2.0两个版本,p2region 1.0和Ip2region 2.0之间的主要区别在于数据的更新频率和精度。Ip2region 2.0在原有版本的基础上增加了更多的数据,例如更详细的地图信息和更准确的IP地址定位。Ip2region 2.0的数据更新频率也更高,这意味着它将提供更精确的信息。此外, Ip2region 2.0还提供了Java、Python和PHP等语言的版本,这使得它更加适用于不同类型的应用程序。
Ip2region特性
1、IP 数据管理框架
xdb 支持亿级别的 IP 数据段行数,默认的 region 信息都固定了格式:国家|区域|省份|城市|ISP,缺省的地域信息默认是0。region 信息支持完全自定义,例如:你可以在 region 中追加特定业务需求的数据,例如:GPS信息/国际统一地域信息编码/邮编等。也就是你完全可以使用 ip2region 来管理你自己的 IP 定位数据。
2、数据去重和压缩
xdb 格式生成程序会自动去重和压缩部分数据,默认的全部 IP 数据,生成的 ip2region.xdb 数据库是 11MiB,随着数据的详细度增加数据库的大小也慢慢增大。
3、极速查询响应
即使是完全基于 xdb 文件的查询,单次查询响应时间在十微秒级别,可通过如下两种方式开启内存加速查询:
- vIndex 索引缓存 :使用固定的 512KiB 的内存空间缓存 vector index 数据,减少一次 IO 磁盘操作,保持平均查询效率稳定在10-20微秒之间。
- xdb 整个文件缓存:将整个 xdb 文件全部加载到内存,内存占用等同于 xdb 文件大小,无磁盘 IO 操作,保持微秒级别的查询效率。
实现的基本流程
一、导入依赖:
<dependency> <groupId>org.lionsoul</groupId> <artifactId>ip2region</artifactId> <version>1.7.2</version> </dependency>
二、下载ip2region.db文件:
下载后将文件放到resources文件夹下:
三、配置一个工具类IPUtil,代码如下:
package com.example.ipsearch.Sutil; import org.lionsoul.ip2region.DataBlock;import org.lionsoul.ip2region.DbConfig;import org.lionsoul.ip2region.DbSearcher;import org.lionsoul.ip2region.Util; import javax.servlet.http.HttpServletRequest;import java.io.File;import java.lang.reflect.Method;import java.net.URL; public class IPUtil { /** * 获取IP地址 * @param request * @return */ public static String getIpAddr(HttpServletRequest request) { String ip = request.getHeader("x-forwarded-for"); if (ip == null || ip.length() == 0 || "unknown".equalsIgnoreCase(ip)) { ip = request.getHeader("X-Real-IP"); } if (ip == null || ip.length() == 0 || "unknown".equalsIgnoreCase(ip)) { ip = request.getHeader("Proxy-Client-IP"); } if (ip == null || ip.length() == 0 || "unknown".equalsIgnoreCase(ip)) { ip = request.getHeader("WL-Proxy-Client-IP"); } if (ip == null || ip.length() == 0 || "unknown".equalsIgnoreCase(ip)) { ip = request.getRemoteAddr(); } if ("0:0:0:0:0:0:0:1".equals(ip)) { ip = "127.0.0.1"; } if (ip.split(",").length > 1) { ip = ip.split(",")[0]; } return ip; } /** * 根据IP地址获取城市 * @param ip * @return */ public static String getCityInfo(String ip) { URL url = IPUtil.class.getClassLoader().getResource("ip2region.db"); File file; if (url != null) { file = new File(url.getFile()); } else { return null; } if (!file.exists()) { System.out.println("Error: Invalid ip2region.db file, filePath:" + file.getPath()); return null; } //查询算法 int algorithm = DbSearcher.BTREE_ALGORITHM; //B-tree //DbSearcher.BINARY_ALGORITHM //Binary //DbSearcher.MEMORY_ALGORITYM //Memory try { DbConfig config = new DbConfig(); DbSearcher searcher = new DbSearcher(config, file.getPath()); Method method; switch ( algorithm ) { case DbSearcher.BTREE_ALGORITHM: method = searcher.getClass().getMethod("btreeSearch", String.class); break; case DbSearcher.BINARY_ALGORITHM: method = searcher.getClass().getMethod("binarySearch", String.class); break; case DbSearcher.MEMORY_ALGORITYM: method = searcher.getClass().getMethod("memorySearch", String.class); break; default: return null; } DataBlock dataBlock; if (!Util.isIpAddress(ip)) { System.out.println("Error: Invalid ip address"); return null; } dataBlock = (DataBlock) method.invoke(searcher, ip); return dataBlock.getRegion(); } catch (Exception e) { e.printStackTrace(); } return null; } }
四、调用方法:
只调用类中的第二个方法即可实现ip地址向所属地的转化:
System.out.println(IPUtil.getCityInfo("ip"));
这里把”ip”换成具体的ip地址,运行即可实现单个ip地址转化为所属地的输出。
若想输出上万个ip的所属地,可以把ip全部放到txt文件里,通过BufferedReader类中的方法读取txt文件中的ip,存到Arraylist中 用循环全部输出。