KọmputaSiseto

UTF-8 - kikọ aiyipada

Unicode atilẹyin fere gbogbo wa tẹlẹ ohun kikọ tosaaju. Ti o dara ju fọọmu ti fifi koodu Unicode ohun kikọ silẹ ṣeto ni UTF-8 aiyipada. O atilẹyin ibamu pẹlu ASCII, resistance to iparun ti awọn data, awọn ṣiṣe ati irorun ti processing. Sugbon akọkọ ohun akọkọ.

ifaminsi fọọmu

Kọmputa ṣiṣẹ ko nikan bi awọn nọmba áljẹbrà mathematiki ohun, bi daradara bi awọn akojọpọ ti sipo ti ipamọ ati mimu ti o wa titi-iwọn data - baiti ati 32-bit ọrọ. Aiyipada boṣewa gbọdọ ya yi sinu iroyin nigba ti npinnu bi o si mu awọn nọmba ti ohun kikọ.

Ni kọmputa awọn ọna šiše, awọn odidi ti fipamọ ni iranti ẹyin ti 8 die (1 baiti), 16 tabi 32 die-die. Kọọkan fọọmu asọye a Unicode aiyipada, eyi ti ọkọọkan ti iranti ẹyin jẹ ẹya odidi bamu si kan pato aami. Ni awọn bošewa nibẹ ni o wa meta o yatọ si iwa ti ifaminsi Unicode ohun kikọ 8, 16 ati 32-bit awọn bulọọki. Accordingly, nwọn si ti wa ni mo bi UTF-8, UTF-16 ati UTF-32. Name UTF dúró fun Unicode Transformation kika. Kọọkan ninu awọn mẹta iwa fifi koodu ọna ni dogba oniduro Unicode ohun kikọ ni o ni anfani ni orisirisi awọn ohun elo.

Data ìsekóòdù a le lo lati soju gbogbo ohun kikọ ninu awọn Unicode bošewa. Bayi, won ni o wa ni kikun ni ibamu si awọn solusan fun orisii idi, lilo yatọ si iwa ifaminsi. Kọọkan ifaminsi le unambiguously wa ni iyipada sinu eyikeyi ninu awọn miiran meji laisi pipadanu ti data.

nenalozheniya opo

Kọọkan ninu awọn fọọmu Unicode aiyipada ni idagbasoke ni view ti ti kii apa kan ni lqkan. Fun apẹẹrẹ, Windows-932 fọọmu awọn ohun kikọ ti ọkan tabi meji baiti ti koodu. Awọn ọkọọkan ipari da lori akọkọ baiti, ki awọn asiwaju baiti iye ninu awọn jara ti meji-baiti ati ki o nikan baiti disjoint. Sibẹsibẹ, awọn iye ti a nikan baiti ati trailing baiti ọkọọkan le pekinreki. Eleyi tumo si fun apẹẹrẹ pe awọn ohun kikọ silẹ search D (koodu 44) le ri ti o mistakenly wọ keji ìka ti awọn ọkọọkan ti meji-baiti ohun kikọ "D" (koodu 84 44). Lati wa jade eyi ti ọkọọkan jẹ ti o tọ, awọn eto yẹ ki o gba sinu iroyin awọn ti tẹlẹ awọn baiti.

Awọn ipo ti wa ni idiju, ti o ba awọn asiwaju ati trailing baiti baramu. Eleyi tumo si wipe ni lati le yọ awọn ambiguity ni yio je kan ọna jade ki o to nínàgà awọn ibere ti awọn ọrọ tabi awọn oto koodu ọkọọkan. Eleyi jẹ ko nikan aisekokari, sugbon ti wa ni ko ni idaabobo lati ṣee ṣe aṣiṣe, niwon nikan kan ti ko tọ si baiti to ni kikun ọrọ ti di unreadable.

Kika iyipada Unicode avoids isoro yi nitori iye awọn ti awọn asiwaju, trailing, ati awọn kan nikan kuro ti ipamọ ni o wa ko ni kanna alaye. Eleyi idaniloju wipe gbogbo Unicode fun wiwa ati lafiwe, kò fifun aito awọn esi nitori awọn lasan ti o yatọ si awọn ẹya ti awọn ti ohun kikọ silẹ koodu. Awọn o daju wipe awọn iwa ti ifaminsi daju awọn opo nenalozheniya, seyato wọn lati miiran East Asia olona-baiti encodings.

Miran ti aspect nonintersection Unicode encodings ni wipe kọọkan ti ohun kikọ silẹ ni o ni a kedere telẹ aala. Eleyi ti jade ni nilo lati ọlọjẹ ohun tí ó lọ kánrin nọmba ti tẹlẹ aami. Ẹya ara ẹrọ yi wa ni ma npe ara-clocking aiyipada. Iparun ti koodu sipo yoo se agbekale a iparun ti nikan kan ti ohun kikọ silẹ, ati awọn agbegbe ohun kikọ ni o si tun mule. Ni awọn 8-bit kika iyipada, ti o ba ti ijuboluwole ojuami si awọn baiti, o bere pẹlu 10xxxxxx (ni alakomeji koodu) lati ri awọn ibere ti awọn aami wa ni ti beere fun ọkan si meta ọna awọn itejade.

aitasera

Unicode Consortium ni kikun atilẹyin fun gbogbo awọn 3 iwa encodings. O ti wa ni pataki lati ko tako awọn UTF-8 ati Unicode, bi gbogbo awọn iyipada kika - se wulo pupo ti irisi ti awọn Unicode ohun kikọ silẹ-aiyipada bošewa.

Baiti-Iṣalaye

Lati soju UTF-32 kikọ yoo nilo a 32-bit koodu kuro, eyi ti o coincides pẹlu awọn Unicode koodu. UTF-16 - kan si meji 16-bit sipo. A UTF-8 nlo soke si 4 baiti.

UTF-8 aiyipada ti a ṣe lati wa ni ibamu pẹlu baiti-Oorun ASCII-orisun ọna šiše. Ọpọlọpọ ninu awọn ti wa tẹlẹ software ati asa ti alaye ọna ẹrọ fun igba pipẹ gbarale lori oniduro ti ohun kikọ ni ọkọọkan kan ti awọn baiti. Ọpọ Ilana da lori constancy ti ASCII aiyipada ati ki o nlo boya avoids awọn pataki Iṣakoso ohun kikọ. A ọna ti o rọrun lati orisirisi si si ipo Unicode le, lilo 8-bit ifaminsi fun nsoju Unicode ohun kikọ, eyikeyi deede ASCII ohun kikọ tabi a Iṣakoso ohun kikọ silẹ. Lati yi opin, ati awọn ti o jẹ UTF-8 aiyipada.

ayípadà ipari

UTF-8 - ifaminsi ti ayípadà ipari, wa ninu 8-bit ipamọ sipo, oke die eyi ti fihan si eyi ti apa ti awọn ọkọọkan ti kọọkan kọọkan baiti je. Ọkan ibiti o ti iye pín si akọkọ ano ti awọn koodu ọkọọkan, miran - fun tókàn. Eleyi pese disjointness aiyipada.

ASCII

UTF-8 aiyipada ni kikun ni atilẹyin ASCII koodu (0x00-0x7F). Eleyi tumo si wipe Unicode ohun kikọ U + 0000-U + 007F wa ni iyipada sinu nikan baiti 0x00-0x7F UTF-8 ati bayi di indistinguishable lati ASCII. Jù bẹẹ lọ, lati yago fun ambiguity, iye 0x00-0x7F ko lo eyikeyi siwaju sii ni kan nikan baiti oniduro ti Unicode ohun kikọ. Lati aiyipada aami neideograficheskih miiran ju ASCII, lilo ọkọọkan kan ti meji baiti. Awọn aami ibiti U + 0800-U + FFFF ti wa ni ipoduduro nipa meta awọn baiti, ati afikun awọn koodu pẹlu diẹ ẹ sii ju U + FFFF beere mẹrin awọn baiti.

Ayika ti ohun elo

UTF-8 aiyipada maa n ti ni a fun ààyò ninu awọn HTML bèèrè, ati bi.

XML ti di akọkọ boṣewa pẹlu ni kikun support fun UTF-8 aiyipada. Standards ajo tun so o. Support isoro ni awọn URL adirẹsi ti o yatọ si lati ASCII-kikọ, ti a resolved nigbati awọn Consortium W3C ati IETF ina- Ẹgbẹ wá si adehun lori awọn ifaminsi ti gbogbo URL adirẹsi ti iyasọtọ ni UTF-8.

Ibamu pẹlu awọn ASCII sise ni orilede si awọn titun software. Pẹlu UTF-8 ṣiṣẹ julọ ọrọ olootu, pẹlu JEdit, Emacs, BBEdit, oṣupa, ati "Notepad" awọn Windows ọna eto. Ko si miiran fọọmu ti aiyipada Unicode ko le isogo ti iru kan support ti awọn ọpa.

ifaminsi anfani ni wipe o oriširiši ti a ọkọọkan ti awọn baiti. Pẹlu UTF-8 okun jẹ rorun lati ṣiṣẹ ni C ati awọn miiran siseto ede. Eleyi jẹ nikan ni fọọmu ti aiyipada, awọn ibere ko ni beere akole baiti BOM tabi ẹya aiyipada ìkéde ni XML.

ara-amuṣiṣẹpọ

Ni ohun ayika ti o nlo 8-bit aami ti awọn processing akawe pẹlu awọn miiran olona-baiti ohun kikọ tosaaju, UTF-8 ni o ni awọn wọnyi anfani:

  • Ni igba akọkọ ti baiti koodu ọkọọkan ni awọn alaye nipa awọn oniwe-ipari. Eleyi mu ki awọn ṣiṣe ti awọn taara àwárí.
  • Yepere wiwa awọn ibere ti awọn aami bi awọn starting baiti wa ni opin si kan ti o wa titi ibiti o ti iye.
  • Ko si ikorita baiti iye.

Afiwe awọn anfani

UTF-8 aiyipada ni iwapọ. Sugbon nigba ti a lo fun fifi koodu East Asia ohun kikọ (Chinese, Japanese, Korean, Chinese kikọ nipa lilo ami) lo 3-baiti lesese. Tun UTF-8 aiyipada ni eni ti si awọn iwa ti ifaminsi processing iyara. A alakomeji ayokuro ila fun wa ni esi kanna bi awọn alakomeji ayokuro Unicode.

Awọn kikọ aiyipada eni

Awọn kikọ aiyipada eni ninu aiyipada aami fọọmù ati ọna fun nikan baiti ipo koodu sipo. Lati mọ awọn aiyipada eni Unicode bošewa pese awọn lilo ti ohun ni ibẹrẹ baiti ibere ami (BOM, baiti ibere ami).

Nigba ti o ti BOM ni UTF-8 ẹya-ara tag wa ni opin nikan nipa tọka si awọn lilo ti iwa ti ifaminsi. Isoro ni ti npinnu endian UTF-8 ni, bi awọn oniwe-aiyipada kuro iwọn jẹ ọkan baiti. Lilo awọn BOM fun yi fọọmu ti ifaminsi ni kò beere tabi niyanju. BOM le waye ninu awọn ọrọ lati wa ni iyipada lati miiran codings lilo baiti ibere ami tabi Ibuwọlu fun UTF-8 aiyipada. Ni a ọkọọkan ti 3 baiti EF BB 16 16 BF 16.

Bawo ni lati ṣeto awọn UTF-8 aiyipada

Awọn HTML ifaminsi UTF-8 ti fi sori ẹrọ pẹlu awọn wọnyi koodu:

ori

Awon orisirisi http-equiv = "Akoonu-Iru" akoonu = "ọrọ / html; charset = utf-8" ˃

Ni PHP UTF-8 aiyipada ti ṣeto lilo awọn akọsori () iṣẹ ni ibẹrẹ ti awọn faili lẹhin eto awọn wu ipele iye aṣiṣe:

˂? Php

error_reporting (-1);

akọsori ( "Akoonu-Iru: text / html; charset = utf-8 ');

Lati sopọ si a MySQL database UTF-8 aiyipada ti ṣeto:

˂? Php

mysql_set_charset ( 'utf8');

Awọn CSS-faili aiyipada ni UTF-8 ohun kikọ ti wa ni pato bi wọnyi:

@charset "utf-8";

Nigba ti o ba fi awọn faili ti gbogbo awọn orisi yan UTF-8 aiyipada lai BOM, bibẹkọ ti awọn ojula yoo ko sise. Lati ṣe eyi ni DreamWeave nilo lati yan awọn ohun akojọ "Iyipada - Page Properties - Title / aiyipada" lati yi awọn aiyipada to UTF-8. Atẹle nipa reloading awọn iwe, yọ ayẹwo ami lati "So Unicode Ibuwọlu (BOM)» ati ki o waye awọn ayipada. Ti o ba ti eyikeyi ọrọ lori iwe tabi ni a database ti a ṣe miiran fọọmu ti ifaminsi, o jẹ pataki lati tun-tẹ tabi tun aiyipada. Nigbati o ba ṣiṣẹ pẹlu awọn expressions, jẹ daju lati lo awọn modifier u.

O tun le fi awọn faili ni UTF-8 aiyipada ni "akọsilẹ" ti Windows. Lẹhin ti yiyan awọn ohun akojọ "File - Fi Bi ..." lati fi sori ẹrọ awọn pataki fọọmu ti aiyipada ki o si fi awọn faili ni UTF-8.

Ni a ọrọ olootu akọsilẹ ++, ti o ba ṣeto miiran ju UTF-8, nipasẹ awọn ohun akojọ "Iyipada to UTF-8 lai BOM» yi awọn ohun kikọ ki o si fi ninu UTF-8.

nibẹ ni ko si yiyan

Ni o tọ ti ilujara, ibi ti oselu ati ede aala ti wa ni erased, awọn ohun kikọ tosaaju ti o ni agbegbe abuda kan, o wa ti kekere lilo. Unicode ni a nikan ti ohun kikọ ṣeto ti o atilẹyin fun gbogbo awọn localizations. A UTF-8 - ẹya apẹẹrẹ ti awọn to dara imuse ti Unicode, ti o jẹ:

  • O ti atilẹyin kan jakejado ibiti o ti irinṣẹ, pẹlu ibamu pẹlu ASCII aiyipada;
  • O ti wa ni sooro si iparun data;
  • rọrun ki o si munadoko ninu awọn itọju;
  • ni Syeed ominira.

Pẹlu F. ti awọn UTF-8 Jomitoro nipa ohun ti fọọmu ti aiyipada tabi ohun kikọ silẹ ṣeto jẹ dara, o di asan.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 yo.birmiss.com. Theme powered by WordPress.