Вероятно большинство веб-программистов никогда не работали напрямую с бинарными данными из php.
И так получилось не только потому, что, чаще всего бинарную обработку берут на себя разнообразные расширения или библиотеки. Часто это связано ещё и с тем, что информации в интернете не очень много, а та что есть - сложна для восприятия и далека от потребностей конкретного разработчика.
Для чтения и записи бинарных данных в php есть две полезные функции:
Итак, если вы прошли по сссылкам и ознакомились с тем что делают эти функции, но ничего не поняли, поясняю:
Функция pack запаковывает данные в требуемом формате, по нашей маске, и на выходе отдаёт строку в бинарном формате.
Функция unpack выполняет обратное преобразование. Она на входе ожидает строку в бинарном формате и на выходе отдаёт массив с данными в привычном нам формате.
Для понимания того, как упаковываются данные, нужно прочитать про то как хранятся данные в памяти. Например из курса языка программирования C.
Преимущество бинарных данных
Допустим: Нам нужно записать в файл числа от нуля до 256. Важно что бы файл легко читался программами на других языках и что бы по размеру он занимал минимум места.
Записываем данные
Традиционным способом мы бы записывали примерно так:
$data = ‘’;
for ( $i = 0; $i < 256; $i++ )
{
$data .= $i . PHP_EOL;
}
file_put_contents( __DIR__ . ‘/int.txt’, $data );
Запаковывая каждый байт по отдельности, мы сделали бы так:
$data = ‘’;
for ( $i = 0; $i < 256; $i++ )
{
$data .= pack(‘c’, $i);
}
file_put_contents( __DIR__ . ‘/int.bin’, $data, FILE_BINARY );
Теперь сравним размеры получившихся файлов:
-rw-rw-r-- 1 ukko ukko 256 июня 17 21:31 int.bin
-rw-rw-r-- 1 ukko ukko 914 июня 17 21:31 int.txt
Т.е. файл где мы упаковали все значения меньше в байт, почти в три раза меньше чем файл где мы все значения записывали в виде строки.
Что бы понять как именно были сохранены файлы, давайте рассмотрим их в HEX редакторе.
Так выглядит файл сохранённый обычным способом:
00000000 30 0a 31 0a 32 0a 33 0a 34 0a 35 0a 36 0a 37 0a |0.1.2.3.4.5.6.7.|
00000010 38 0a 39 0a 31 30 0a 31 31 0a 31 32 0a 31 33 0a |8.9.10.11.12.13.|
00000020 31 34 0a 31 35 0a 31 36 0a 31 37 0a 31 38 0a 31 |14.15.16.17.18.1|
00000030 39 0a 32 30 0a 32 31 0a 32 32 0a 32 33 0a 32 34 |9.20.21.22.23.24|
00000040 0a 32 35 0a 32 36 0a 32 37 0a 32 38 0a 32 39 0a |.25.26.27.28.29.|
00000050 33 30 0a 33 31 0a 33 32 0a 33 33 0a 33 34 0a 33 |30.31.32.33.34.3|
00000060 35 0a 33 36 0a 33 37 0a 33 38 0a 33 39 0a 34 30 |5.36.37.38.39.40|
00000070 0a 34 31 0a 34 32 0a 34 33 0a 34 34 0a 34 35 0a |.41.42.43.44.45.|
00000080 34 36 0a 34 37 0a 34 38 0a 34 39 0a 35 30 0a 35 |46.47.48.49.50.5|
00000090 31 0a 35 32 0a 35 33 0a 35 34 0a 35 35 0a 35 36 |1.52.53.54.55.56|
000000a0 0a 35 37 0a 35 38 0a 35 39 0a 36 30 0a 36 31 0a |.57.58.59.60.61.|
000000b0 36 32 0a 36 33 0a 36 34 0a 36 35 0a 36 36 0a 36 |62.63.64.65.66.6|
000000c0 37 0a 36 38 0a 36 39 0a 37 30 0a 37 31 0a 37 32 |7.68.69.70.71.72|
000000d0 0a 37 33 0a 37 34 0a 37 35 0a 37 36 0a 37 37 0a |.73.74.75.76.77.|
000000e0 37 38 0a 37 39 0a 38 30 0a 38 31 0a 38 32 0a 38 |78.79.80.81.82.8|
000000f0 33 0a 38 34 0a 38 35 0a 38 36 0a 38 37 0a 38 38 |3.84.85.86.87.88|
00000100 0a 38 39 0a 39 30 0a 39 31 0a 39 32 0a 39 33 0a |.89.90.91.92.93.|
00000110 39 34 0a 39 35 0a 39 36 0a 39 37 0a 39 38 0a 39 |94.95.96.97.98.9|
00000120 39 0a 31 30 30 0a 31 30 31 0a 31 30 32 0a 31 30 |9.100.101.102.10|
00000130 33 0a 31 30 34 0a 31 30 35 0a 31 30 36 0a 31 30 |3.104.105.106.10|
00000140 37 0a 31 30 38 0a 31 30 39 0a 31 31 30 0a 31 31 |7.108.109.110.11|
00000150 31 0a 31 31 32 0a 31 31 33 0a 31 31 34 0a 31 31 |1.112.113.114.11|
00000160 35 0a 31 31 36 0a 31 31 37 0a 31 31 38 0a 31 31 |5.116.117.118.11|
00000170 39 0a 31 32 30 0a 31 32 31 0a 31 32 32 0a 31 32 |9.120.121.122.12|
00000180 33 0a 31 32 34 0a 31 32 35 0a 31 32 36 0a 31 32 |3.124.125.126.12|
00000190 37 0a 31 32 38 0a 31 32 39 0a 31 33 30 0a 31 33 |7.128.129.130.13|
000001a0 31 0a 31 33 32 0a 31 33 33 0a 31 33 34 0a 31 33 |1.132.133.134.13|
000001b0 35 0a 31 33 36 0a 31 33 37 0a 31 33 38 0a 31 33 |5.136.137.138.13|
000001c0 39 0a 31 34 30 0a 31 34 31 0a 31 34 32 0a 31 34 |9.140.141.142.14|
000001d0 33 0a 31 34 34 0a 31 34 35 0a 31 34 36 0a 31 34 |3.144.145.146.14|
000001e0 37 0a 31 34 38 0a 31 34 39 0a 31 35 30 0a 31 35 |7.148.149.150.15|
000001f0 31 0a 31 35 32 0a 31 35 33 0a 31 35 34 0a 31 35 |1.152.153.154.15|
00000200 35 0a 31 35 36 0a 31 35 37 0a 31 35 38 0a 31 35 |5.156.157.158.15|
00000210 39 0a 31 36 30 0a 31 36 31 0a 31 36 32 0a 31 36 |9.160.161.162.16|
00000220 33 0a 31 36 34 0a 31 36 35 0a 31 36 36 0a 31 36 |3.164.165.166.16|
00000230 37 0a 31 36 38 0a 31 36 39 0a 31 37 30 0a 31 37 |7.168.169.170.17|
00000240 31 0a 31 37 32 0a 31 37 33 0a 31 37 34 0a 31 37 |1.172.173.174.17|
00000250 35 0a 31 37 36 0a 31 37 37 0a 31 37 38 0a 31 37 |5.176.177.178.17|
00000260 39 0a 31 38 30 0a 31 38 31 0a 31 38 32 0a 31 38 |9.180.181.182.18|
00000270 33 0a 31 38 34 0a 31 38 35 0a 31 38 36 0a 31 38 |3.184.185.186.18|
00000280 37 0a 31 38 38 0a 31 38 39 0a 31 39 30 0a 31 39 |7.188.189.190.19|
00000290 31 0a 31 39 32 0a 31 39 33 0a 31 39 34 0a 31 39 |1.192.193.194.19|
000002a0 35 0a 31 39 36 0a 31 39 37 0a 31 39 38 0a 31 39 |5.196.197.198.19|
000002b0 39 0a 32 30 30 0a 32 30 31 0a 32 30 32 0a 32 30 |9.200.201.202.20|
000002c0 33 0a 32 30 34 0a 32 30 35 0a 32 30 36 0a 32 30 |3.204.205.206.20|
000002d0 37 0a 32 30 38 0a 32 30 39 0a 32 31 30 0a 32 31 |7.208.209.210.21|
000002e0 31 0a 32 31 32 0a 32 31 33 0a 32 31 34 0a 32 31 |1.212.213.214.21|
000002f0 35 0a 32 31 36 0a 32 31 37 0a 32 31 38 0a 32 31 |5.216.217.218.21|
00000300 39 0a 32 32 30 0a 32 32 31 0a 32 32 32 0a 32 32 |9.220.221.222.22|
00000310 33 0a 32 32 34 0a 32 32 35 0a 32 32 36 0a 32 32 |3.224.225.226.22|
00000320 37 0a 32 32 38 0a 32 32 39 0a 32 33 30 0a 32 33 |7.228.229.230.23|
00000330 31 0a 32 33 32 0a 32 33 33 0a 32 33 34 0a 32 33 |1.232.233.234.23|
00000340 35 0a 32 33 36 0a 32 33 37 0a 32 33 38 0a 32 33 |5.236.237.238.23|
00000350 39 0a 32 34 30 0a 32 34 31 0a 32 34 32 0a 32 34 |9.240.241.242.24|
00000360 33 0a 32 34 34 0a 32 34 35 0a 32 34 36 0a 32 34 |3.244.245.246.24|
00000370 37 0a 32 34 38 0a 32 34 39 0a 32 35 30 0a 32 35 |7.248.249.250.25|
00000380 31 0a 32 35 32 0a 32 35 33 0a 32 35 34 0a 32 35 |1.252.253.254.25|
00000390 35 0a |5.|
00000392
А в этом файле значения были упакованы в char:
00000000 00 01 02 03 04 05 06 07 08 09 0a 0b 0c 0d 0e 0f |................|
00000010 10 11 12 13 14 15 16 17 18 19 1a 1b 1c 1d 1e 1f |................|
00000020 20 21 22 23 24 25 26 27 28 29 2a 2b 2c 2d 2e 2f | !”#$%&‘()*+,-./|
00000030 30 31 32 33 34 35 36 37 38 39 3a 3b 3c 3d 3e 3f |0123456789:;<=>?|
00000040 40 41 42 43 44 45 46 47 48 49 4a 4b 4c 4d 4e 4f |@ABCDEFGHIJKLMNO|
00000050 50 51 52 53 54 55 56 57 58 59 5a 5b 5c 5d 5e 5f |PQRSTUVWXYZ[\]^_|
00000060 60 61 62 63 64 65 66 67 68 69 6a 6b 6c 6d 6e 6f |`abcdefghijklmno|
00000070 70 71 72 73 74 75 76 77 78 79 7a 7b 7c 7d 7e 7f |pqrstuvwxyz{|}~.|
00000080 80 81 82 83 84 85 86 87 88 89 8a 8b 8c 8d 8e 8f |................|
00000090 90 91 92 93 94 95 96 97 98 99 9a 9b 9c 9d 9e 9f |................|
000000a0 a0 a1 a2 a3 a4 a5 a6 a7 a8 a9 aa ab ac ad ae af |................|
000000b0 b0 b1 b2 b3 b4 b5 b6 b7 b8 b9 ba bb bc bd be bf |................|
000000c0 c0 c1 c2 c3 c4 c5 c6 c7 c8 c9 ca cb cc cd ce cf |................|
000000d0 d0 d1 d2 d3 d4 d5 d6 d7 d8 d9 da db dc dd de df |................|
000000e0 e0 e1 e2 e3 e4 e5 e6 e7 e8 e9 ea eb ec ed ee ef |................|
000000f0 f0 f1 f2 f3 f4 f5 f6 f7 f8 f9 fa fb fc fd fe ff |................|
00000100
Внимательный разработчик сразу заметит причину такого разбухания файла.
Это конечно же символ 0A, используемый в качестве разделителя значений (0x0A = 10 = символ новой строки), и то, что каждый из знаков в переменной сохраняется в своём байте. Например, когда требуется сохранить число 248, записываются 3 байта 32 34 38.
Считываем данные
Теперь при попытке прочитать данные из файлов могут возникнуть проблемы при чтении запакованных данных. Что бы их обойти считываем данные так:
$data = file_get_contents( __DIR__ . '/int.bin' );
$array = unpack( 'c*', $data )
Подробнее о функциях pack и unpack
Как вы уже могли заметить, функция pack принимает обязательных два аргумента: форматную строку и значение, или несколько значений которые необходимо запаковать.
Для того что бы оценить гибкость запаковывания данных давайте попробуем решить такую задачу.
Нам необходимо реализовать обмен данными между программами написанными на разных языках.
Итак, запаковываем массив содержащий числа и строки. Обратите внимание на то, что если для чисел мы знаем размер, хотя бы предполагаем что число обязано уместится в тип char, т.е. от 0 до 256. То строка может содержать любое количество символов.
Для простоты будем считать что строка тоже должна уместиться в 256 символов, тогда мы можем количество символов строки записать в переменную типа char.
$data = array(
array( 5, 'Василий' ),
array( 9, 'Пётр' ),
array( 12, 'Мария' ),
);
$result = '';
foreach ( $data as $person )
{
list( $id, $name ) = $person;
$result .= pack( 'c2a*', $id, strlen($name), $name );
}
file_put_contents( __DIR__ . '/person.bin', $result, FILE_BINARY );
Вот так выглядит сохранённый файл
00000000 01 0e d0 92 d0 b0 d1 81 d0 b8 d0 bb d0 b8 d0 b9 |................|
00000010 02 08 d0 9f d1 91 d1 82 d1 80 03 0a d0 9c d0 b0 |................|
00000020 d1 80 d0 b8 d1 8f |......|
00000026
Попробуем теперь прочитать файл
$handle = fopen(__DIR__ . '/person.bin', "rb");
$persons = array();
while ( ! feof( $handle ) )
{
$data = fread( $handle, 2 );
if ( strlen($data) == 2 )
{
$int = unpack( 'cid/ccount', $data );
$name = unpack( 'a*', fread( $handle, $int['count'] ) );
$persons[] = array( $int['id'], $name );
}
}
fclose($handle);
var_dump( $persons );
И на выходе мы получим такой массив:
array(3) {
[0] =>
array(2) {
[0] =>
int(5)
[1] =>
array(1) {
[1] =>
string(14) "Василий"
}
}
[1] =>
array(2) {
[0] =>
int(9)
[1] =>
array(1) {
[1] =>
string(8) "Пётр"
}
}
[2] =>
array(2) {
[0] =>
int(12)
[1] =>
array(1) {
[1] =>
string(10) "Мария"
}
}
}
Как видите, всё просто, даже сложные бинарные структуры достаточно просто разобрать на php.
Спасибо за прочтение статьи и просмотр портянки шестнадцетеричных кодов :-)