Sunday 11 June 2017

Normalisierte Mantissen Binär Optionen


Verfahren und Vorrichtung zur Normalisierung einer Gleitkomma-Binärzahl US 5513362 Die AA-Nachverarbeitung erfolgt auf einer Mantisse M und einem Exponenten E einer Gleitkomma-Binärzahl als Ergebnis einer Subtraktion, um dadurch eine Mantisse m und eine zu erhalten Exponent e des Ergebnisses der Nachverarbeitung Daher wird ein Ausgang E-1 eines Dekrementierers und ein Ausgangsbetrag der Aufhebung der Mantisse LSA einer vorrückenden 1 Erfassungsschaltung in eine Minimalwert-Auswahlschaltung eingegeben. Die Minimalwert-Auswahlschaltung ist angepasst Um einen Verschiebungsbetrag SH zu E-1 und ein Größenbeziehungsbeurteilungssignal CR zu 1 einzustellen, wenn E-1 kleiner als LSA ist, dh wenn eine Denormalisierungsverarbeitung erforderlich ist. Wenn E-1 nicht kleiner als LSA ist, Eine Normalisierungsverarbeitung erforderlich ist, SH auf LSA gesetzt ist und CR auf 0 gesetzt ist. Ein linker Schieber ist dazu ausgelegt, als Mantisse m des Ergebnisses einen Wert zu liefern, der durch Ausführen einer Linksverschiebungsverarbeitung mit einem Verschiebungsbetrag SH auf der Mantisse erhalten wird MA wählt c Ist die Schaltung als Exponenten e des Ergebnisses 0, wenn CR gleich 1 ist, und ein Ausgang E-LSA einer Subtraktionsschaltung, wenn CR gleich 0 ist. Dies ermöglicht die Denormalisierungsverarbeitung einer Gleitkomma-Binärzahl zu Mit einer hohen Geschwindigkeit ausgeführt werden, die derjenigen entspricht, bei der eine Normalisierungsverarbeitung ausgeführt wird. 3.1 eine Betriebsverarbeitungsvorrichtung zum Ausführen einer Verschiebungsverarbeitung auf einer Mantisse mit einer Vielzahl von Bitpositionen und einem Radixpunkt einer Gleitkomma-Binärzahl und zum Einstellen eines Exponenten der Gleitkomma-Binärzahl, wobei die Vorrichtung umfasst: Einleiten von Erfassungsmitteln Zum Erfassen der Bitposition eines Vorrückens 1 in der Mantisse und zum Liefern einer Differenz zwischen der Bitposition und der Bitposition einer Bit-Ein-Bit-Position als Betrag der Aufhebung der Mantisse als signifikanter als die Radix-Punkt-Verstärkungseinrichtung Zum Liefern eines Wertes, der durch Subtrahieren von 1 von der Exponentenabtrenneinrichtung erhalten wird, um in der Größenordnung miteinander zu vergleichen, zwei Eingangsdaten, dh ein Ausgangssignal der Dekrementierungseinrichtung und einen Betrag der Aufhebung, der von der Vorschub 1-Erfassungseinrichtung zugeführt wird, um dadurch, Ein Ergebnis der Größenbezugsbeurteilung, die Eingabedaten, je nachdem, welcher Wert kleiner ist, und auch ein Größenverhältnisbeurteilungssignal zu liefern, das w darstellt Wobei die Eingangsdaten kleiner aus den beiden Eingangsdaten sind. Bezugsmittel zum Liefern eines Wertes, der durch Subtrahieren eines Betrags der Aufhebung, der von der Vorschub 1-Erfassungseinrichtung zugeführt wird, von dem Exponenten erhalten wird. Entwurfseinrichtung zum Liefern eines Exponenten eines Ergebnisses von Eine Betriebsverarbeitung 0, wenn ein Größenbeziehungsbeurteilungssignal von der Vergleichseinrichtung repräsentiert, dass aus den zwei Eingangsdaten das Ausgangssignal der Dekrementierungseinrichtung kleiner ist und ein Ausgangssignal der Subtrahiereinrichtung, wenn das Größenbeziehungsbeurteilungssignal repräsentiert Andernfalls und. Verschiebungseinrichtung zum Liefern eines Wertes, der durch Ausführen auf der Mantisse der Gleitkomma-Binärzahl als eine Mantisse des Ergebnisses der Betriebsverarbeitung erhalten wird, eine Linksverschiebungsverarbeitung, bei der der Verschiebungsbetrag gleich einem Ergebnis der Größen - Die eine Vielzahl von Bits aufweist, die von den Vergleichsmitteln zugeführt werden. Dabei enthält die Vergleichseinrichtung eine Minimalwert-Auswahlschaltung, um die Magnitude zu verbreiten Die Beziehung der beiden Eingangsdaten für jede Ziffer davon von einer höchstwertigen Ziffer zu einer niedrigstwertigen Ziffer, um dadurch das Ergebnis der Größenbezugsbeurteilung, beginnend mit der höchstwertigen Ziffer, zu liefern, unddie Verschiebemittel links 2 kk 0 umfassen , 1, 2 n-1-Bit-Schieber, die jeweils den unteren n-Bits eines von der Minimalwert-Auswahlschaltung gelieferten Ergebnisses der Größenbezugsbeurteilung entsprechen und die in Kaskade miteinander verbunden sind.2 eine Betriebsverarbeitungseinrichtung zur Ausführung eines Verschiebungsverarbeitung auf einer Mantisse mit einer Vielzahl von Bitpositionen und einem Radixpunkt einer Gleitkomma-Binärzahl und zum Einstellen eines Exponenten der Gleitkomma-Binärzahl, wobei die Vorrichtung umfasst: eine Erfassungseinrichtung zum Erfassen der Bitposition von a Das Vorrücken von 1 in der Mantisse und zum Liefern eines Unterschieds zwischen der Bitposition und der Bitposition eines Bit-Ein-Bit-Positions, wie ein Betrag der Aufhebung der Mantisse, Die durch Subtrahieren von 1 von der Exponententreff - und Auswahleinrichtung zum Vergleichen einer Größe, miteinander, mit zwei Eingabedaten, dh einem Betrag der Aufhebung, der von der Vorschub 1-Erfassungseinrichtung und dem Exponenten geliefert wird, erhalten wird , Um dadurch als Ergebnis einer Größenordnungsbeurteilung den Betrag des Aufhebens zu liefern, wenn der Betrag der Aufhebung kleiner als der Exponenten ist, und ein Ausgangssignal der Dekrementierungseinrichtung, wenn der Betrag der Aufhebung nicht kleiner als der Exponent ist, und auch Um ein Größenbeziehungs-Beurteilungssignal zu liefern, das repräsentiert, welche Eingangsdaten aus den zwei Eingangsdaten kleiner sind, eine Abgabeeinrichtung zum Liefern eines Wertes, der durch Subtrahieren eines Betrags der Aufhebung, der von der Vorschub 1-Erfassungseinrichtung zugeführt wird, von dem Exponenten erhalten wird Zuführen eines Ausgangssignals der Subtrahiereinrichtung als Exponenten eines Ergebnisses einer Betriebsverarbeitung, wenn ein Größenbeziehungsbeurteilungssignal f ROM bedeutet, daß die Vergleichs - und Auswahlmittel repräsentieren, daß aus den beiden Eingangsdaten der Betrag der Aufhebung, der von der Vorschub 1-Erfassungseinrichtung zugeführt wird, kleiner ist, und 0, wenn das Größenbeziehungs-Beurteilungssignal anderweitig repräsentiert, undschiebemittel zum Zuführen als Mantisse des Ergebnisses der Betriebsverarbeitung einen Wert, der erhalten wird, indem auf der Mantisse der Gleitkomma-Binärzahl eine Linksverschiebungsverarbeitung durchgeführt wird, wobei der Verschiebungsbetrag gleich einem Ergebnis der Größenbezugsbeurteilung ist, der eine Vielzahl von Bits aufweist, Die von dem Vergleich und der ausgewählten Einrichtung geliefert wird, wobei die Vergleichs - und Auswahleinrichtung eine Vergleichs - und Auswahlschaltung aufweist, um die Größenbeziehung der beiden Eingangsdaten für jede Ziffer davon von einer höchstwertigen Ziffer zu einer niedrigstwertigen Ziffer zu verbreiten, um dadurch das Ergebnis zu liefern Der Größenbezugsbeurteilung, beginnend mit der bedeutendsten Ziffer, und die Schaltmittel umfassen linke 2 kk 0, 1, 2 n-1 Bitschieber, die respe Die niedrigeren n-Bits eines von der Vergleichs - und Auswahlschaltung gelieferten Ergebnisses der Größenbezugsbeurteilung entsprechen und die in Kaskade miteinander verbunden sind.3 eine Betriebsverarbeitungsvorrichtung zum Ausführen einer Schichtverarbeitung auf einer Mantisse mit einer Vielzahl von Bit-Positionen und einem Radix-Punkt, einer Gleitkomma-Binärzahl und zum Einstellen eines Exponenten der Gleitkomma-Binärzahl, wobei die Vorrichtung umfasst :Entwicklung von 1 Erfassungseinrichtung zum Erfassen der Bitposition eines Vorrückens 1 in der Mantisse und zum Zuführen, Ein Ausmaß der Aufhebung der Mantisse, eine Differenz zwischen der Bitposition und der Bitposition einer Bit-Ein-Bit-Position, die signifikanter ist als die Radix-Punkt-Subtraktionseinrichtung, um als Ergebnis einer Subtraktion einen Wert zu liefern, der durch Subtrahieren von dem Exponenten erhalten wird , Einen Betrag der Aufhebung, der vorgespannt ist, die Vorschub 1-Erfassungseinrichtung und auch zum Liefern eines Größenbezugsbeurteilungssignals, das darstellt, ob oder n Wobei der Exponent gleich oder kleiner als der Betrag des Aufhebens ist. Erste Auswahleinrichtung zum Zuführen als Exponent eines Ergebnisses einer Operationsverarbeitung 0, wenn ein Größenbezugsbeurteilungssignal von der Subtrahiereinrichtung repräsentiert, daß der Exponent nicht größer ist Als das Ausmaß des Aufhebens und ein Ergebnis der Subtraktion, die von der Subtrahiereinrichtung zugeführt wird, wenn das Größenbeziehungsbeurteilungssignal anders repräsentiert. Eine zweite Auswahleinrichtung zum Zuführen des Exponenten, wenn ein Größenbeziehungsbeurteilungssignal von der Subtraktionseinrichtung repräsentiert, dass der Exponent nicht ist Größer als der Betrag des Aufhebens und der Betrag der Aufhebung, der die Vorwärtsbewegungs-Erfassungseinrichtung vorgelegt hat, wenn das Größenbeziehungsbeurteilungssignal anderweitig repräsentiert, und. Schaltverarbeitungseinrichtung zum Liefern eines Wertes, der erhalten wird, als eine Mantisse des Ergebnisses der Betriebsverarbeitung Durch Ausführen, auf der Mantisse der Gleitkomma-Binärzahl, eine Linksverschiebungsverarbeitung in whi Ch-Verschiebungsbetrag gleich einem Wert ist, der durch Subtrahieren von 1 von einem Ausgang der zweiten Auswahleinrichtung erhalten wird, wenn ein Größenbeziehungsbeurteilungssignal von der Subtrahiereinrichtung repräsentiert, dass der Exponent nicht größer als der Betrag der Aufhebung ist und in dem der Verschiebungsbetrag ist Gleich dem Ausgangssignal der zweiten Auswahleinrichtung ist, wenn das Größenbeziehungsbeurteilungssignal anders repräsentiert. Wenn die Schiebeverarbeitungseinrichtung einen linken Schieber aufweist, um einen Wert zu liefern, der durch Ausführen einer Linksverschiebungsverarbeitung, bei der die Verschiebung erfolgt, auf der Mantisse ausgegeben wird Der Betrag gleich einem Ausgang der zweiten Auswahleinrichtung ist, undeinen rechten 1-Bit-Schieber zum Liefern eines Wertes, der durch Ausführen einer rechten 1-Bit-Verschiebungsverarbeitung an einem Ausgang der genannten, als eine Mantisse des Ergebnisses einer Betriebsverarbeitung erhalten wird Linken Schieberegler, wenn ein Größenbeziehungs-Beurteilungssignal von der Subtrahiereinrichtung repräsentiert, dass der Exponent nicht größer als der Betrag des Aufhebens ist und der Ausgang selbst des linken s Die vorliegende Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung für eine betriebliche Verarbeitung unter Verwendung einer Binärzahl einer Gleitkomma-Darstellung gemäß dem IEEE-Institut für Elektro - und Elektronik-Ingenieure Standard 754. Die vorliegende Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung für eine Betriebsverarbeitung unter Verwendung einer Binärzahl einer Gleitkomma-Darstellung gemäß dem IEEE-Institut für Elektro - und Elektronik-Ingenieure Standard 754. HINTERGRUND DER ERFINDUNG Oder eine, die mit diesem übereinstimmt. Mit der jüngsten Komplikation der wissenschaftlichen technischen Berechnung oder der grafischen Prozedur besteht ein erhöhter Bedarf an einer schnellen und genauen Gleitkomma-Operation. Ein Computer ist dazu ausgelegt, eine Verarbeitung unter Verwendung nur begrenzter Ziffern einer Gleitkommazahl auszuführen Dementsprechend treten häufig Fehler in einem Ergebnis auf, das durch einen Gleitkomma-Betrieb erhalten wird. Die Betriebsgenauigkeit hängt entscheidend von der Hardwareanordnung eines Computers ab, aber nach dem IEEE-Standard 754 können Fehler, die sich aus der Hardwareanordnung ergeben, verhindert werden. Im IEEE Std 754 , Ein Format, dessen Gesamtbitzahl 32 ist, einschließlich eines 1-Bit-Zeichens S, eines 8-bi T Exponent E und eine 23-Bit-Fraktion F wird für eine einphasige Gleitkomma-Binärzahl spezifiziert. Auch ein Format, dessen Gesamtbitzahl 64 mit einem 1-Bit-Zeichen S, einem 11-Bit-Exponenten E und einem 52- Bit-Fraktion F, wird für eine Gleitkomma-Binärzahl mit doppelter Genauigkeit spezifiziert. Im Allgemeinen wird eine Gleitkommazahl verwendet, für die eine Normalisierung durchgeführt wurde, so dass ein virtuelles Nicht-Null-Wert-Bit und der Radix-Punkt oberhalb der höchsten liegen Bit-MSB der Fraktion F Jedoch wird eine Vorspannung an einen tatsächlichen Exponenten gegeben, so dass der Exponent E ein positiver Wert ist. Beispielsweise wird als Exponent E ein Wert verwendet, der durch Addieren von 127 als Vorspannung erhalten wird Ein tatsächlicher Exponent Das heißt, eine reelle Zahl R1, ausgedrückt als normalisierte Anzahl einzelner Präzision, wird wie folgt ausgedrückt. Dabei ist 1 F eine Mantisse M. Im IEEE Std 754 ist definiert, dass, wenn ein Operationsergebnis ein Nachbarschaftswert ist Von 0, wird dies als eine denormalisierte Zahl dargestellt Für eine Einzelgenauigkeit wird beispielsweise der Exponenten E gemacht und es wird eine Denormalisierungsverarbeitung ausgeführt, um den Bruchteil F so zu verschieben, daß das Gewicht des Nullwertbits um ein Bit als der Radixpunkt 2 -126 beträgt. In diesem Fall wird, Wird ein reeller Wert R2, der als eine denormalisierte Zahl ausgedrückt wird, wie folgt ausgedrückt: wobei die Mantisse M 0 F ist. Es gibt ein Phänomen, daß die Anzahl der Ziffern einer effektiven Zahl stark verringert ist, wenn zwei Ziffern hinzugefügt werden, deren Absolutwerte im wesentlichen sind Das gleiche und von denen Zeichen verschieden voneinander sind Ein solches Phänomen heißt Abbruch In der Subtraktion von Gleitkommazahlen, die sich etwas voneinander unterscheiden, wenn ein Exponent des Minusters gleich einem Exponenten der Subtrahenden ist, Subtraktion ihrer Mantissen Wird ohne eine Ziffernposition ausgeführt, die die Operation rechtfertigt. Zum Beispiel, wenn eine Mantisse des Minusters 1 100101 ist und eine Mantisse des Subtrahendes 1 100010 das Ergebnis der Subtraktion der Mantisse ist S ist gleich 0 000011 Wenn also der Wert des Bits um ein Bit als der Radixpunkt 0 im Ergebnis einer Operation ist, so heißt es, dass eine Aufhebung der Mantisse erzeugt worden ist. Die Anzahl der Nullen, die kontinuierlich vorhanden sind Die Position des Bits oben um ein Bit als der Radixpunkt, wird als Betrag der Aufhebung der Mantisse bezeichnet. In diesem Beispiel beträgt die Menge der Annullierung der Mantisse 5. Eine Gleitkommazahl, die eine solche Aufhebung der Mantisse darstellt, wird durch Ausführen normalisiert, Auf einer Mantisse M, eine Linksverschiebungsverarbeitung mit einem Verschiebungsbetrag gleich dem Betrag der Aufhebung und durch Korrigieren eines Exponenten E, so daß der Betrag der Aufhebung von dem Exponenten E subtrahiert wird. In der folgenden Beschreibung wird ein linker Verschiebungsbetrag, der zu diesem Zeitpunkt erforderlich ist, Wenn die Aufhebung der Mantisse erzeugt worden ist, wird als ein Betrag der Annullierung LSA ausgedrückt. Wenn der Exponent E ist nicht größer als die Menge der Streichung der Mantisse LSA und der Betrag der Streichung LSA wird subtrahiert M der Exponenten E für die Normalisierung wird der Exponent nach Korrektur nicht größer als 0 Wenn ein Betriebsergebnis nicht als normalisierte Zahl ausgedrückt werden kann, ist die oben genannte Denormalisierungsverarbeitung dann erforderlich. Die Hardware eines herkömmlichen Computers ist dazu ausgelegt, eine Verarbeitung durchzuführen Einer normierten Anzahl nur genauer gesagt, wenn beurteilt wird, dass ein Wert, der durch Ausführen einer Normalisierungsverarbeitung auf einem Betriebsergebnis in einer Hardware erhalten wird, nicht als eine normalisierte Zahl ausgedrückt werden kann, wird die Normalisierungsverarbeitung unter der Bedingung unterbrochen, dass eine Ausnahme aufgetreten ist, Und eine Denormalisierungsverarbeitung wird dann der Software übertragen. Entsprechend wird die Denormalisierungsverarbeitung ausgeführt, nachdem die Normalisierungsverarbeitung ausgeführt worden ist. Dies stellt das Problem dar, daß ein gewünschtes Operationsergebnis nicht mit einer hohen Geschwindigkeit erhalten werden kann. Es ist ein Gegenstand Der vorliegenden Erfindung, um eine Denormalisierungsverarbeitung einer Gleitkomma-Binärzahl zu ermöglichen, die ausgeführt werden soll D mit einer hohen Geschwindigkeit, die äquivalent zu einer Geschwindigkeit ist, bei der eine Normalisierungsverarbeitung ausgeführt wird. Um das oben genannte Ziel zu erreichen, ist die vorliegende Erfindung so angeordnet, daß vor der Ausführung einer Normalisierungsverarbeitung ein Exponent E und ein Betrag der Aufhebung der Mantisse besteht LSA werden in der Größenordnung miteinander verglichen, und auf der Grundlage des Vergleichsergebnisses wird entweder eine Normalisierungsverarbeitung oder eine Denormalisierungsverarbeitung ausgeführt. Gemäß der vorliegenden Erfindung werden ein Exponent E und ein Betrag der Aufhebung der Mantisse LSA in der Größe mit jedem verglichen Andere, und es wird beurteilt, ob das Ergebnis einer Operationsverarbeitung eine normalisierte Zahl oder eine denormalisierte Zahl ist. Wenn das Ergebnis einer Operationsverarbeitung eine normalisierte Zahl E größer als LSA ist, wird der Betrag des Aufhebens LSA als Verschiebungsbetrag SH für ausgewählt Eine Mantisse M und ein Wert, der durch Subtrahieren des Betrags des Aufhebens von LSA von dem Exponenten E erhalten wird, wird als Exponent e der Ergebnisnormalisierungsverarbeitung ausgewählt Hand, wenn das Ergebnis einer Operationsverarbeitung eine denormalisierte Zahl E ist, die nicht größer als LSA ist, wird ein Wert, der durch Subtrahieren von 1 von dem Exponenten E erhalten wird, als der Verschiebungsbetrag SH für die Mantisse M ausgewählt und 0 als Exponent e ausgewählt Der Ergebnis-Denormalisierungsverarbeitung Genauer gesagt, obwohl das Ergebnis einer Operationsverarbeitung eine denormalisierte Zahl ist, kann die Verarbeitung mit einer hohen Geschwindigkeit in der gleichen Weise wie für eine normalisierte Zahl ausgeführt werden. BESCHREIBUNG DER ZEICHNUNGEN 1 ist ein Das den Ablauf einer Verarbeitung in einem Betriebsverarbeitungsverfahren gemäß einer Ausführungsform der vorliegenden Erfindung zeigt. Fig. 2 ist ein Blockdiagramm, das die Anordnung einer ersten Betriebsverarbeitungsvorrichtung gemäß einer Ausführungsform der vorliegenden Erfindung zeigt. Fig. 3 ist eine Schaltungsdiagramm, das die Anordnung der Innenseite einer in Fig. 2 dargestellten Minimalwert-Auswahlschaltung zeigt, ist ein Blockdiagramm, das die Anordnung einer zweiten Betriebsverarbeitung zeigt Vorrichtung gemäß einer Ausführungsform der vorliegenden Erfindung. Fig. 5 ist ein Schaltbild, das die Anordnung der Innenseite einer Vergleichs - und Auswahlschaltung zeigt, die in Fig. 4 gezeigt ist. Fig. 6 ist ein Blockdiagramm, das die Anordnung einer dritten Betriebsverarbeitungsvorrichtung gemäß Fig Eine Ausführungsform der vorliegenden Erfindung. Fig. 7 ist ein Schaltbild, das die Anordnung der Innenseite einer Subtraktionsschaltung zeigt, die in Fig. 6 gezeigt ist, und Fig. 8 ist ein Blockdiagramm, das die Anordnung einer vierten Operationsverarbeitungsvorrichtung gemäß einer Ausführungsform der Fig Die vorliegende Beschreibung beschreibt ein Betriebsverarbeitungsverfahren gemäß einer Ausführungsform der vorliegenden Erfindung und eine Betriebsverarbeitungsvorrichtung, die bei der Durchführung des oben erwähnten Verfahrens verwendet werden soll. Fig. 1 zeigt eine Eine Sequenz der Ausführung einer Nachverarbeitung auf einer Mantisse M und eines Exponenten E einer eingegebenen Gleitkomma-Binärzahl, die als Ergebnis eines Bedienung zum Beispiel Subtraktion normalisierter Zahlen, also Umwandlung der Mantisse M und des Exponenten E in eine Mantisse m und einen Exponenten e einer Gleitkomma-Binärzahl der Ausgabe Die folgende Beschreibung beschreibt die Sequenz Schritt für Schritt für eine einfache Präzision Kann das in Fig. 1 gezeigte Betriebsverarbeitungsverfahren auch für eine doppelte Genauigkeit angewendet werden. Um einen Betrag der Aufhebung der Mantisse LSA zu erhalten, wird zuerst die Bitposition des Vorrückens 1 in einer Mantisse M detektiert. Der Betrag des Aufhebens von LSA wird als Differenz erhalten Zwischen der Bitposition des so ermittelten Vorlaufs 1 und der Position des Bitoberteils um ein Bit als der Radixpunktschritt 101. Dann werden ein Exponent E und der Betrag des Aufhebens von LSA in der Größe mit jedem anderen Schritt 102 verglichen. Wenn E ist Nicht größer als LSA, wird eine Denormalisierungsverarbeitung so ausgeführt, dass das Ergebnis einer Betriebsverarbeitung als eine denormalisierte Zahl ausgedrückt wird. Demzufolge ist es erforderlich, den Exponenten E derart zu verringern Daß der Exponent E gleich 0 ist und auf der Mantisse M eine Linksverschiebungsverarbeitung ausführt, die einen Verschiebungsbetrag aufweist, der dem Betrag einer solchen Abnahme entspricht. Das Bitoberteil um ein Bit als der Radixpunkt in einer normalisierten Zahl hat ein Gewicht Von 2 -127, aber das Gewicht eines solchen Bits in einer denormalisierten Zahl ist 2 -126, wie in der Gleichung 2 gezeigt. Demzufolge ist es erforderlich, daß 1 Bit von dem Verschiebungsbetrag verringert wird, wenn eine linke Verschiebungsverarbeitung auf der Mantisse M ausgeführt wird In diesem Zusammenhang wird der Verschiebungsbetrag SH für die Mantisse auf den E-1-Schritt 103 gesetzt, und ein Exponent e des Ergebnisses der Betriebsverarbeitung wird auf 0 Schritt 104 gesetzt. Wenn andererseits E größer als LSA ist, Wird der Verschiebungsbetrag SH für die Mantisse auf LSA gesetzt, um einen Normalisierungsverarbeitungsschritt 105 auszuführen, und ein Exponent e des Ergebnisses einer Betriebsverarbeitung wird auf den E-LSA-Schritt 106 gesetzt. Zu diesem Zeitpunkt wird der Exponent e E-LSA Ist positiv. In einem Schritt 107 wird eine Linksverschiebungsverarbeitung auf der Mantisse M acco durchgeführt Die in dem Schritt 103 oder 105 erhalten wird, wodurch eine Mantisse m des Ergebnisses der Betriebsverarbeitung erhalten wird. Nach dem oben erwähnten Betriebsverarbeitungsverfahren wird der Ablauf der Verarbeitung auf der Grundlage des Vergleichsergebnisses gesteuert In der Größe zwischen dem Exponenten E und dem Betrag der Aufhebung der Mantisse LSA Dementsprechend kann das Verfahren, obwohl das Ergebnis einer Operationsverarbeitung eine denormalisierte Zahl ist, mit einer hohen Geschwindigkeit ebenfalls für eine normalisierte Zahl ausgeführt werden. Alternativ kann der Schritt 103 sein So verändert, dass der Verschiebungsbetrag SH auf E anstelle von E-1 gesetzt ist und eine rechte 1-Bit-Verschiebungsverarbeitung auf der Mantisse M nur weiter ausgeführt werden kann, wenn E nicht größer als LSA ist, vor oder nach dem Schritt 107, wo die Die linke Verschiebungsverarbeitung wird auf der Mantisse M ausgeführt. Die folgende Beschreibung wird nacheinander die erste bis vierte Operationsverarbeitungsvorrichtung besprechen, die in der Praxis des Betriebsverarbeitungsverfahrens verwendet werden soll Die erste Betriebsverarbeitungsvorrichtung, die in 2 gezeigt ist, umfasst einen Dekrementierer 201, eine Vorlauf 1 Erfassungsschaltung 202, eine Minimalwertauswahlschaltung 203, eine Linksschiebeeinheit 204, ein Mantissenergebnisregister 205, eine Subtraktionsschaltung 206, a Eine Auswahlschaltung 207 und ein Exponenten-Ergebnisregister 208. Der Dekrementierer 201 ist dazu ausgelegt, einen Wert zu liefern, der durch Subtrahieren von 1 von einem Exponenten E erhalten wird. Die Vorwärts-1-Erfassungsschaltung 202 ist dazu ausgelegt, eine Mantisse M in der Richtung von der Bitseite um ein Bit zu durchsuchen Als der Radixpunkt auf das niedrigstwertige Bit LSB, um dadurch die Position des ersten Bits zu detektieren, die gleich 1 ist, und auch angepasst, um als einen Betrag des Aufhebens von LSA eine Differenz zwischen der Position des so ermittelten Bits und Die Position des Bit-Oberteils um ein Bit als der Radix-Punkt. Die Minimalwert-Auswahlschaltung 203 ist so ausgelegt, dass sie in der Größenordnung zwei Eingangsdaten, dh einen Ausgang E-1 des Dekrementierers 201 und a, miteinander vergleicht Ausgabe LSA der vorrückenden 1 Erfassungsschaltung 202, um dadurch als Verschiebungsbetrag SH die Eingangsdaten zu liefern, je nachdem, welcher Wert kleiner ist, und um ein Größenbezugsbeurteilungssignal CR zu liefern, welches die Eingangsdaten aus den beiden Eingangsdaten kleiner macht Wenn E-1 kleiner als LSA ist, wenn E nicht größer als LSA ist, ist SH gleich E-1 und CR ist gleich 1 Wenn E-1 nicht kleiner als LSA ist, wenn E größer als LSA ist Ist SH gleich LSA und CR ist gleich 0. Die linke Schiebeeinheit 204 ist dazu ausgelegt, als eine Mantisse m des Ergebnisses einer Betriebsverarbeitung einen Wert zu liefern, der durch Ausführen einer Linksverschiebungsverarbeitung auf der Mantisse M erhalten wird Einen Verschiebungsbetrag, der durch einen Ausgang SH der Minimalwert-Auswahlschaltung 203 spezifiziert ist. Das Mantissen-Ergebnisregister 205 ist dazu ausgelegt, einen Ausgang m der linken Schiebeeinheit 204 zu speichern. Die Subtraktionsschaltung 206 ist dazu ausgelegt, einen Wert zu liefern, der durch Subtrahieren eines Ausgangs-LSA erhalten wird Der vorrückenden 1 Erfassungsschaltung 202 von einem Exponenten ET Die Auswahlschaltung 207 ist dazu ausgelegt, als Exponenten e des Ergebnisses einer Betriebsverarbeitung 0 zu liefern, wenn CR gleich 1 ist, und ein Ausgang E-LSA der Subtraktionsschaltung 206, wenn CR gleich 0 ist. Das Exponentenergebnisregister 208 ist dazu ausgelegt, einen Ausgang e der Auswahlschaltung 207 zu speichern. Gemäß der Anordnung in Fig. 2 beurteilt die Minimalwert-Auswahlschaltung 203, ob das Ergebnis einer Operationsverarbeitung eine normalisierte Zahl oder eine denormalisierte Zahl ist, basierend auf der Tatsache, ob Oder nicht ein Wert, der durch Subtrahieren eines Ausgangssignals LSA der Vorwärts-1-Erfassungsschaltung 202 von einem Ausgang E-1 des Dekrementierers 201 erhalten wird, negativ ist. Der Verschiebungsbetrag SH für die Mantisse M und ein Exponent e des Ergebnisses einer Betriebsverarbeitung sind Dass auf der Grundlage des Ergebnisses der so beurteilten Beurteilung entweder eine Normalisierungsverarbeitung oder eine Denormalisierungsverarbeitung ausgeführt werden soll. Zu diesem Zeitpunkt wird die linke Schiebeeinheit 204 üblicherweise sowohl für die Normalisierungsverarbeitung an verwendet D die Denormalisierungsverarbeitung. Die Minimalwert-Auswahlschaltung 203 in Fig. 2 hat die Funktion, daß zwei 8-Bit-Eingangsdaten X, Y in der Größenordnung miteinander verglichen werden und die Eingangsdaten, je nachdem, welcher Wert kleiner ist, als Ausgangsdaten Z gesetzt, Und daß der logische Wert eines Größenbeziehungsbeurteilungssignalausgangsanschlusses B auf 1 gesetzt wird, wenn X kleiner als Y ist. Wie in Fig. 3 gezeigt, hat die Minimalwertauswahlschaltung 203 eine Eingangsschaltung 311, eine Zwischenschaltung 312 und einen Ausgang Schaltung 313 und ist so angeordnet, daß die Größenbeziehung der beiden Eingangsdaten X, Y für jede der Ziffern von der höchsten Ziffer zur untersten Zifferenz fortgefahren wird, wodurch bei einer hohen Geschwindigkeit eine Ausgangsdaten Z bestimmt wird, die nacheinander beginnen Die höchste Ziffer Siehe japanische Patentoffenlegungsschrift 3-12735.Wenn die jeweiligen Bits der Eingangs - und Ausgangsdaten X, Y, Z als Xi, Yi, Zi i 0 bis 7 gesetzt sind, wird eine Größenbezugsbestimmungsfunktion gi und Wird eine Größenbeziehungs-Haltefunktion pi gebildet Für jede Ziffer in der Eingangsschaltung 311 gi 1 repräsentiert, dass Xi kleiner als Yi ist und pi 1 repräsentiert, dass Xi gleich Yi ist. Der Zwischenkreis 312 bildet auf der Grundlage der Ausgänge gi und pi der Eingangsschaltung 311 eine Größe - Regations-Bestimmungsfunktion gjk und eine Größenbeziehungs-Haltefunktion pjk für die Ziffern von der j-ten Ziffer zur k-ten Ziffer j ist kleiner als k. Beispielsweise repräsentiert g67 1 die Größenrelation zweier Bits, die X7X6 kleiner als Y7Y6 und p67 ist 1 stellt die Äquivalenzrelation von zwei Bits dar, die X7X6 gleich Y7Y6 ist. Ferner stellt g471 die Größenrelation von vier Bits dar, die X7X6X5X4 kleiner als Y7Y6Y5Y4 ist und p471 die Äquivalenzrelation von vier Bits darstellt, die X7X6X5X4 gleich Y7Y6Y5Y4 ist. Diese Größenordnung - Regations-Bestimmungsfunktionen gi, gjk und die Größenbeziehungs-Haltefunktionen pi, pjk werden von der höchsten Ziffer zu der niedrigsten Ziffer ausgebreitet. Wenn die Größenbeziehungs-Bestimmungsfunktion gi7 für die Ziffern von Jede Ziffer der i-ten Ziffer zur höchsten Ziffer der 7. Ziffer wird in der oben erwähnten Weise erhalten, Xi wird in jeder Ziffer ausgewählt, wenn gi7 gleich 1 ist und Yi in jeder Ziffer ausgewählt wird, wenn gi7 gleich 0 ist. Dann ist Xi oder Yi, das so ausgewählt ist, wird als Zi gesetzt. Somit kann nach dem höchsten Bit ein 8-Bit-Ausgangsdaten-Z-Minimalwert erhalten werden. In der Ausgangsschaltung 313 in Fig. 3 werden jedoch Z7 und Z6 jeweils nach g7 und g67 bestimmt Z5 und Z4 werden nach g47 bestimmt und Z3 bis Z0 werden nach g07 bestimmt Die Größenbezugsbestimmungsfunktion g07 für die Ziffern von der 0. Ziffer zur 7. Ziffer, die gleich 1 ist, wenn X kleiner als Y ist und welche Gleich 0 ist, wenn X nicht kleiner als Y ist, wird von dem in Fig. 2 gezeigten Betragsbezugsbeurteilungssignalausgangsanschluß B zugeführt. In Fig. 2 ist die linke Schiebeeinheit 204 durch Verbinden von fünf 16-Bit, 8-Bit, 4 gebildet Bit-, 2-Bit - und 1-Bit-Links-Shifter zueinander, wie in dieser Reihenfolge von der Eingabe angeordnet Seite einer Mantisse M Die unteren fünf Bits eines Ausgangs Z7 bis Z0 der Minimalwert-Auswahlschaltung 203 dienen als Steuersignale der fünf linken Shifter, jeweils, wenn ein Ausgang ein Schaltbetrag SH der Minimalwert-Auswahlschaltung 203 ist Wird nacheinander von dem höchsten Bit bestimmt, wobei die Schieber in der linken Schiebeeinheit 204 sukzessive betrieben werden, beginnend mit dem 16-Bit-Schieber, in dem der Betrag der Verschiebung am größten ist. Dementsprechend wird jedes Mal jede der Ziffern eines Ausgangssignals des Minimums Wert-Auswahlschaltung 203 wird nacheinander von der höchsten Ziffer bestimmt, auf einer Mantisse M wird eine Linksschaltverarbeitung mit einem Verschiebungsbetrag von 2 k Bit entsprechend der so ermittelten Ziffer ausgeführt. Wie in Fig. 2 und 3 erläutert, Hat die Minimalwert-Auswahlschaltung 203 zum Ermitteln eines Ausgangsdatums Z nacheinander von der höchsten Ziffer und die mehrstufige linke Schiebeeinheit 204 mit einer Vielzahl von Schiebereglern, die aufeinanderfolgend sein sollen Y betätigt, beginnend mit dem Schieber, bei dem der Verschiebungsbetrag am grßten ist. Dies ermöglicht es, daß die linke Schaltverarbeitung auf einer Mantisse M mit hoher Geschwindigkeit ausgeführt wird. Die Minimalwertauswahlschaltung 203 ist von der 8-Bit-Anordnung und der linken Schiebeeinheit 204 ist von der 5-stufigen Anordnung von linken 2 kk 0 bis 4-Bit-Schiebereglern, wobei die Anzahl der Bits von jeder der Mantisse M und der Exponent E für eine einzige Präzision berücksichtigt wird. Jedoch können solche Anordnungen entsprechend der Anzahl der Bits jeder der Mantisse M und des Exponenten E. In einer zweiten Betriebsverarbeitungsvorrichtung in Fig. 4 wird die in Fig. 2 gezeigte Minimalwert-Auswahlschaltung 203 durch eine Vergleichs - und Auswahlschaltung 401A-Auswahlschaltung 402 in Fig. 4 ersetzt Unterscheidet sich von der Auswahlschaltung 207 in Fig. 2 dadurch, daß die Auswahlschaltung 402 dazu ausgelegt ist, einen Ausgang E-LSA der Subtraktionsschaltung 206 zu liefern, wenn CR gleich 1 ist, und 0, wenn CR gleich 0 ist. Vergleich und Auswahl von c Der Schaltkreis 401 ist so ausgelegt, dass er in der Größenordnung zwei Eingangsdaten, dh einen Ausgang LSA der Vorwärts-1-Detektorschaltung 202 und einen Exponenten E, miteinander vergleicht und als Schaltbetrag SH den Ausgang LSA liefert, wenn LSA kleiner ist Als der Exponent E und ein Ausgang E-1 des Dekrementierers 201, wenn der Ausgang LSA nicht kleiner als der Exponent E ist. Außerdem ist die Vergleichs - und Auswahlschaltung 401 dazu ausgelegt, ein Größenverhältnis-Beurteilungssignal CR zu liefern, das welche LSA oder E darstellt Kleiner ist, wenn LSA kleiner als E ist, SH gleich LSA ist und CR gleich 1 ist und wenn LSA nicht kleiner als E ist, ist SH gleich E-1 und CR gleich 0. Nach der Anordnung in Fig Wie in Fig. 4 gezeigt ist, ist die Vergleichs - und Auswahlschaltung 401 geeignet, zu beurteilen, ob das Ergebnis einer Operationsverarbeitung eine normalisierte Zahl oder eine denormalisierte Zahl ist, basierend auf der Tatsache, ob ein Wert, der durch Subtrahieren des Exponenten E von einem Ausgang LSA des Vorrückens erhalten wird, 1 Erfassungsschaltung 202 ist negativ. Anders als die minim Um-Wert-Auswahlschaltung 203 in 2 kann die Vergleichs - und Auswahlschaltung 401 beginnen, in der Größenordnung zwei Eingangsdaten miteinander zu vergleichen, bevor ein Ausgang des Dekrementierers 201 bestimmt wird, wodurch ermöglicht wird, dass die Beurteilung mit einer höheren Geschwindigkeit durchgeführt wird Verschiebungsbetrag SH für die Mantisse M und ein Exponent e des Ergebnisses einer operativen Verarbeitung kann so bestimmt werden, dass auf der Grundlage des Ergebnisses der so entstandenen Beurteilung entweder eine Normalisierungsverarbeitung oder eine Denormalisierungsverarbeitung ausgeführt werden soll. Wird die linke Schiebeeinheit 204 üblicherweise für die Normalisierungsverarbeitung und die Denormalisierungsverarbeitung verwendet. Die Vergleichs - und Auswahlschaltung 401 in Fig. 4 hat die Funktion, daß die ersten und zweiten 8-Bit-Eingangsdaten X, Y in der Größenordnung miteinander verglichen werden Um als Ausgangsdaten Z, X zu liefern, wenn X kleiner als Y ist, und ein drittes 8-Bit-Eingangsdaten S, wenn X nicht kleiner als Y ist und dass der logische Wert des Größenbeziehungsbeurteilungssignalausgangsanschlusses B i S auf 1 gesetzt, wenn X kleiner als Y ist. Wie in Fig. 5 gezeigt, weist die Vergleichs - und Auswahlschaltung 401 eine Eingangsschaltung 411, eine Zwischenschaltung 412 und eine Ausgangsschaltung 413 auf und ist ebenfalls angeordnet, ebenso die Minimalwert-Auswahlschaltung 203, So daß die Größenbeziehung der beiden Eingangsdaten X, Y für jede der Ziffern von der höchsten Ziffer zur untersten Zifferenz fortgefahren wird, wodurch bei einer hohen Geschwindigkeit die Ausgangsdaten Z mit der höchsten Ziffer bestimmt werden FIGS 4 and 5 has the comparing and selecting circuit 401 for determining the output data Z successively from the highest digit, and the multi-stage left shifter unit 204 having a plurality of shifters to be successively operated, starting with the shifter in which the shift amount is the greatest This enables the left shift processing on a mantissa M to be executed at a higher speed The comparing and selecting circuit 401 is of the 8-bit arrangement and the left shifter unit 204 is of the 5-stage arrangemen t of left 2 k k 0 to 4 bit shifters, with the number of bits of each of the mantissa M and the exponent E for single precision taken into consideration However, such arrangements may be suitably changed according to the number of bits of each of the mantissa M and the exponent E. In a third operational processing apparatus shown in FIG 6, a decrementer 201, an advancing 1 detecting circuit 202 and a mantissa result register 205, a first selecting circuit 207 and an exponent result register 208 respectively have the same functions as those of the component elements designated by the same reference numerals in FIG 2 In FIG 6, there are also disposed a subtracting circuit 601, a second selecting circuit 602 and a left shifter 603.The subtracting circuit 601 is adapted to supply, as a result of subtraction, a value obtained by subtracting an output LSA of the advancing 1 detecting circuit 202 from an exponent E, and also to supply a magnitude-relation judging signal Ib representing whether or not E is equal to or smaller than LSA When E is not greater than LSA, Ib is equal to 1, and when E is greater than LSA, Ib is equal to 0 The first selecting circuit 207 is adapted to supply, as an exponent e of the result of an operational processing, 0 when Ib is equal to 1, and an output E-LSA of the subtracting circuit 601 when Ib is equal to 0 The second selecting circuit 602 is adapted to supply, as a shift amount SH, an output E-1 of the decrementer 201 when Ib is equal to 1, and an output LSA of the advancing 1 detecting circuit 202 when Ib is equal to 0 The left shifter 603 is adapted to supply, as a mantissa m of the result of an operational processing, a value obtained by executing, on a mantissa M, a left shift processing having a shift amount specified by an output SH of the second selecting circuit 602 The inside arrangement of the left shifter 603 is not limited to the multi-stage arrangement of the left shifter unit 204 in FIG 2.The subtracting circuit 601 in FIG 6 ha s the both functions of the subtracting circuit 206 and the minimum value selecting circuit 203 shown in FIG 2 More specifically, the subtracting circuit 601 is adapted to supply a subtraction result E-LSA to be subjected to the correction of an exponent E, and to judge whether the result of an operational processing is a normalized number or a denormalized number, based on the fact whether or not a value obtained by subtracting LSA from E is equal to or smaller than 0 Then, the shift amount SH of the mantissa M and an exponent e of the result of an operational processing can be determined such that, based on the judgment thus made, either a normalize processing or a denormalize processing is to be executed At this time, the left shifter 601 is commonly used for the normalize processing and the denormalize processing. The subtracting circuit 601 in FIG 6 has the function that a subtraction result X-Y of two 8-bit input data X, Y is set as an output data Z, and that the logical value of the magnitude-relation judging signal Ib is set to 1 when X is not greater than Y As shown in FIG 7, the subtracting circuit 601 has an input circuit 611, an intermediate circuit 612 and an output circuit 613, and is arranged such that the magnitude relation of the two input data X, Y for each of the digits is propagated from the lowest digit to the highest digit, thus determining the output data Z. When the respective bits of the input and output data X, Y, Z are set as Xi, Yi, Zi i 0 to 7 , the input circuit 611 forms a digit borrow generating signal Igi and a digit borrow propagating signal Ipi for each digit As widely known, the digit borrow generating signal Igi is a signal for executing subtraction, which is formed such that Igi 1 represents that, in an operation of Xi-Yi as to the ith digit, digit borrowing has taken place from the i 1 th digit However, Igi 1 also represents that Xi is not greater than Yi As widely known, the digit borrow propagating signal Ipi is another signal for executing subtraction, which is formed for judging that, in an operation of Xi-Yi, when digit borrowing has taken place from the ith digit to the i-1 th digit and if Ipi is equal to 1, digit borrowing has taken place from the i 1 th digit However, since digit borrowing from the i 1 th digit takes place due to the digit borrowing which has taken place on the i-1 th digit, Ipi 1 also represents that Xi is equal to Yi. Based on the outputs Igi and Ipi of the input circuit 611, the intermediate circuit 611 forms a digit borrow generating signal Igjk and a digit borrow propagating signal Ipjk for the digits from the kth digit to the j th digit k is smaller than j For example, the digit borrow generating signal Ig32 from the second digit to the third digit is a signal for executing subtraction, which is formed such that Ig32 1, represents that, in an operation of two bits of X3X2-Y3Y2, digit borrowing from the fourth digit has taken place However, Ig32 1 also represents the magnitude rela tion of two bits that X3X2 is not greater than Y3Y2 On the other hand, the digit borrow propagating signal Ip32 from the second digit to the third digit is another signal for executing subtraction, which is formed for judging that, in an operation of X3X2-Y3Y2, when digit borrowing has taken place from the second digit to two bits of first and zeroth digits and if Ip32 1 is equal to 1, digit borrowing has taken place from the fourth digit Since digit borrowing from fourth digit takes place due to the digit borrowing which has taken place on the first or zeroth digit, Ip32 1 also represents the equivalence relationship of two bits that X3X2 is equal to Y3Y2 The digit borrow generating signals Igi, Igjk and the digit borrow propagating signals Ipi, Ipjk are propagated from the lowest digit to the highest digit. When the digit borrow generating signal Igi0 for the digits from the lowest digit the zeroth digit to each digit the ith digit is obtained, the output circuit 613 generates Zi, for each digit, based on Ipi and Ig i-1 0 However, Z1 is generated based on Ip1 and Ig0 Since no digit is borrowed from the lowest digit, Z0 is determined based on Ip0 only. When at least one of a digit borrow generating signal Ig70 and a digit borrow propagating signal Ip70 for the digits from the zeroth digit to the 7th digit, is 1, this represents that X is not greater than Y More specifically, the magnitude-relation judging signal Ib can be expressed by the following equation. However, the following equations are established. Accordingly, the following equation is then established EQU1.In the output circuit 613 in FIG 7, the magnitude-relation judging signal Ib is generated with the use of the relation of the equation 6.Generally, it is easy to judge whether or not a subtraction result is negative in a subtracting circuit for executing subtraction of X-Y That is, it is enough to judge whether or not a digit is borrowed from the highest digit However, it is difficult to judge whether or n ot a subtraction result is not greater than 0 That is, it is difficult to judge whether or not a subtraction result is equal to 0 In this connection, it may be considered to add a circuit for making sure that all the bits of a subtraction result are 0 or for making sure that X-Y is not negative and X-Y-1 is negative This may increase the amount of hardware of the subtracting circuit In the subtracting circuit 601 in FIG 7, however, most of the hardware is commonly used for the calculation of the output data Z and the generation of the magnitude-relation judging signal Ib representing that X is not greater than Y X-Y is not greater than 0 It is therefore possible to reduce the amount of the hardware. In a fourth operational processing apparatus in FIG 8, the decrementer 201 in FIG 7 is removed but a right 1-bit shifter 604 is interposed between a left shifter 603 and a mantissa result register 205 The left shifter 603 and the right 1-bit shifter 604 form a bidirectional shifter 605.A sec ond selecting circuit 602 is adapted to supply, as a shift amount SH, an exponent E when Ib is equal to 1, and an output LSA of the advancing 1 detecting circuit 202 when Ib is equal to 0, the exponent E and the output LSA being supplied to the left shifter 603 The right 1-bit shifter 604 is adapted to supply, as a mantissa m of the result of an operational processing, a value obtained by executing a right 1-bit shift processing on an output of the left shifter 603 when Ib is equal to 1, and the output itself of the left shifter 603 when Ib is equal to 0.According to the arrangement in FIG 8, when the subtracting circuit 601 having the inside arrangement shown in FIG 7 makes a judgment that the result of an operational processing is a denormalized number Ib 1 the shift amount SH to be given to the left shifter 603 is set to E and a shift operation of the right 1-bit shifter 604 is started As a result, there is executed, on a mantissa M, a left shift processing having a desired shift am ount E-1 On the other hand, when it is judged that the result of the operational processing is a normalized number Ib 0 , the shift amount SH to be given to the left shifter 603 is set to LSA and a shift operation of the right 1-bit shifter 604 is stopped As a result, there is executed, on a mantissa M, a left shift processing having a desired shift amount LSA More specifically, according to the arrangement in FIG 8, the provision of the right 1-bit shifter 604 eliminates the decrementer 201 in FIG 6, thus simplifying the arrangement of the operational processing apparatus The method of determining an exponent e of the result of an operational processing is similar to that shown in FIG 6.In the embodiment in FIG 8, the right 1-bit shifter 604 is disposed at the output side of the left shifter 603, but the right 1-bit shifter 604 may be disposed at the input side of the left shifter 603.This page is translated from the original by using the Google translator. IEEE 754 - Standard binary a rithmetic float. Author Yashkardin Vladimir 10 2 1,55625 exp 10 2 Number 1,55625 exp 10 2 consists of two parts a mantissa M 1 55625 and the exponent exp 10 2 If the mantissa is in the range 1 -2.3 2 Submission of a denormalized exponential form. Take, for example, the decimal number 155,625 Imagine the number of denormalized exponential way 0,155625 10 3 0,155625 exp 10 3 Number 0,155625 exp 10 3 consists of two parts a mantissa M 0,155625 and exponent exp 10 3 If the mantissa is in the range 0,1 -3.3 3 Converting decimal to binary floating-point number. Our problem is reduced to a decimal floating point numbers in binary floating-point number in exponential normalized form To do this we expand the given number of binary digits.155,625 1 2 7 0 2 6 0 2 5 1 2 4 1 2 3 0 2 2 1 2 1 1 2 0 1 2 -1 0 2 -2 1 2 -3 155,625 128 0 0 16 8 0 2 1 0 5 0 0 125 155,625 10 10011011,101 2 - the number of decimal and binary floating-point. Let the resulting number to the normalized form in decimal and binary sy stem 1,55625 exp 10 2 1,0011011101 exp 2 111.As a result, we have the main components of the normalized exponential of binary numbers Mantissa M 1 0011011101 Exponent exp 2 111. 4 Description converting numbers of IEEE 754.4 1 The transformation of a normalized binary numbers in 32 bit format IEEE 754.The main application in technology and programming formats were 32 and 64 bits For example, in VB using the data types single 32 bit and double 64 bits Consider the transformation of the binary number 10011011 101 format single-precision 32 bit IEEE Standard 754 Other formats of the numbers in IEEE 754 is an enlarged copy of the single-precision. To provide the number in the format single-precision IEEE 754 should bring it to the binary normalized form In 3, we have done this conversion on the number 155 625 Now consider, as a normalized binary number is converted to a 32-bit format IEEE 754.Description of the transformation in 32-bit format IEEE 754.Number can be or - Therefore play a bit to designate the sign of 0-positive 1-negative This most significant bit to 32 bit sequence. Then go exponent bits, this allocates 1 byte 8 bits Exhibitor may be, as the number, with the sign or - To determine the sign of the exponent, not to introduce yet another sign bit, add the offset to the exponent in half byte 127 0111 1111 That is, if our exhibit 7 111 in binary , then shifted exponent 7 127 134 And if our exhibitors was -7, then offset Booths 127-7 120 Biased exponent is written in the allotted 8 bits However, when we will need to obtain an exponential binary numbers, we simply subtract 127 from this byte. The remaining 23 bits set aside for the mantissa However, the normalized binary mantissa first bit is always 1, since the number is in the range 1 The table shows the decimal number 155 625 in the 32-bit format IEEE754.001 1011 1010 0000 0000 0000.2 971 1,99584e 292.From the above, given that the bulk of the numbers in IEEE754 format has a stable small relative error The maxi mum possible relative error for the number is Single 2 -23 100 11,920928955078125e-6 The maximum possible relative error for the number of Double 2 -52 100 2,2204460492503130808472633361816e-14.7 5 General information for the number of single and double precision IEEE standard 754.Table 3 Information about the format 32 64 bit in the standard ANSI IEEE Std 754-1985.length number, bit. offset the exponential E , bits. the remainder of the mantissa M , bits. denormalized binary number. normalized binary number. denormalized number of decimal. F -1 S 2 E -126 M 2 23.F -1 S 2 E -1022 M 2 52.normalized number of decimal. F -1 S 2 E-127 1 M 2 23.F -1 S 2 E-1023 1 M 2 52.Abs max error number. Rel max error denorms number. Rel max error norms number. 2 -149 1,40129846 e -45. 2 -1074 4,94065646 e -324. 2 127 2-2 -23 3,40282347 e 38. 2 1023 2-2 -52 1,79769313 e 308. 8 Rounding numbers in standard IEEE 754.In presenting the floating-point numbers in IEEE Standard 754 have often rounded numbers The standard provides four ways to rounding of numbers. Ways to rounding of numbers of IEEE 754.Rounding tending to the nearest integer. Rounding tends to zero. Rounding tends to. Rounding tends to. Table 3 Examples of rounding to one decimal. to the nearest integer. How is rounding shown in the examples in Table 3 When you convert a number to choose one of the ways of rounding By default, this is the first way, rounding to the nearest integer Often in different devices using the second method - rounded to zero When rounding to zero, simply discard meaningless level numbers, so this is the easiest one in the hardware implementation. 9 Computing problems caused by using the standard IEEE754.IEEE 754 standard is widely used in engineering and programming Most modern microprocessors are manufactured with hardware realization of representations of real variables in the format of IEEE754 Programming language and the programmer can not change this situation, a repose of a real number in the microprocessor does not exist When creating the standard IEEE754-1985 representation of a real variable in the form of 4 or 8 bytes seem very large value, since the amount of RAM MS-DOS was equal to 1 MB A program in this system could be used only 0 64 MB For modern operating systems the size of 8 bytes is null and void, nevertheless the variables in most microprocessors continue to be in the format IEEE754-1985.Consider the error computing, caused by the use of numbers in the format of IEEE754.9 1 Errors associated with accuracy of representation of real numbers in the format of IEEE754 A dangerous reduction. This error is always pre sent in computer calculations The reason for its occurrence is described in paragraph 7 4 -6 for double 10 -14 The absolute errors can be significant, as for single 10 31 and for double 10 292,that may cause problems with calculations. If the sample count on the paper, the answer is 1 Absolute error is 7 Why get the wrong answer Number 123456789 in the single 4CEB79A3hex ieee 123456792 dec absolute error reporting is 3 Number 123456788 in the single 4CEB79A2hex ieee 123456784 dec absolute error reporting is -4 Relative error in the initial numbers of approximately 3,24 e-6 As a result, one operation relative error of the result was 800 , ie increased by 2,5 e 8 times This is what I call A dangerous reduction ie catastrophic decrease of accuracy in the operation where the absolute value of the result is much smaller than any of the input variables. In fact, the error precision of the representation of the most innocuous in computer calculations, and usually many programmers are not payin g any attention Nevertheless, they you can be very frustrating.9 2 Errors associated with improper coercion of types of data Wild error. These errors are caused by the fact that the original number submitted in the format of single and double in a format not usually equal to each other For example the original number 123456789,123456789 Single 4CEB79A3 123456792,0 dec Double 419D6F34547E6B75 123456789,12345679104328155517578125 The difference between Single and Double amount 2,87654320895671844482421875.Here is an example for VB Relative error of the result is gt end lt boby gt lt html gt Enter a number 2 2250738585072011e-308 caused a hang of the process with nearly 100 load CPU Other numbers from this range of problems not caused 2 2250738585072009e-308, 2 2250738585072010e-308, 2 2250738585072012e-308 Report a bug received 30 12 2010, 10 01 2011 fixed by the developer Since PHP is a preprocessor is used by most servers, then any user network within 10 days, was able to close any host How to write the developers that the bug only works in 32-bit systems, but if you increase the accuracy of the boundary, then I think that the 64-bit systems, too, hang not verified The reason for the panic is clear any user, at a certain level of diligence and knowledge, had the opportunity to cut down most of the information resources of the planet within ten days I would not like - would result in more examples of such numbers and such errors. 10 The final part. From the above it is clear that the view that the floating-point result is not beyond the relative error in reporting the greatest number is false Errors listed in Item 9 are added together Such errors as dirty and dangerous zero reduction can make calculation errors unacceptable Particular attention in the programming of computer calculations the programmer should be paid to the results close to zero. Some experts believe that the format of numbers represents a threat to humanity You can read about it in the article IEEE754-tick threatens mankind Although many of the facts in this article over-dramatized, and possibly misinterpreted, but the problem is computing correctly reflected philosophically. I m not a dramatization of the calculations on the standard IEEE754 Standard operating since 1985 and fully entered into the standard IEEE754-2008, which broadened the accuracy of calculations However, the problem of reliability computing today is very urgent, and the standa rd IEEE754-2008 and ISO recommendations have not solved this problem I think in this area needed an innovative idea that developers Standard IEEE754-2008 unfortunately do not possess. Innovative ideas usually come from The main innovative ideas in our world were made by amateurs like-minded people not for money A striking example of this situation was the invention of the phone When a school teacher Alexander Graham Bell Alexander Graham Bell came up with a patent for an invention of the telephone to the president of telecommunications company Western Union Company, which is owned by the transatlantic cable connection with an offer to buy his patent for the invention of the telephone, he was not expelled - no The president of that company offered to consider this question the advice of experts in the field of telegraphy, consisting of specialists and scholars in the field of telecommunications Experts gave their opinion that this invention is useless in the field of telecommunications a nd it is futile Some experts have even written a report that it tsirkachestvo and charlatanism nbsp nbsp Alexander Graham Bell, along with his father in law, decided independently to promote his invention After about 10 years, the telecommunications giant Western Union Co was virtually eliminated phone business from the sphere of telecommunication technologies Today you can see in many Russian cities windows that says Western Union, this company which is engaged in transferring money around the world, and once she was the international telecommunications giant We can conclude opinions of experts in innovative technologies are useless If you think that since the invention of the telephone 1877 in people s minds that something has changed, you re wrong. If scientists who are inventing new and professionals who know how to use the well-known can not solve the problem, you need innovation. Links to new ideas in the field of representation of real numbers in hardware 1 Approksimetika 2 If you know of other innovative ideas in the field of representations of real numbers, then we will be happy to get links to these sources. I would suggest to represent real numbers as fixed-point To view the full range of numbers Double enough to have a variable consisting of 1075 bits integer part and 1075 bits of fractional part, ie about 270 bytes per variable In this case, all numbers will be presented with the same absolute accuracy You can work with numbers in the entire range the real axis, that is, it becomes possible to summarize large numbers of small numbers Step numbers on the real axis is uniform, that is the real axis is linear The data type will be only one, ie do not need the whole, real and other types Here the problem is the realization of registers of microprocessors dimension of 270 bytes, but it s not a problem for modern technology. To write p 9 I had to create a program that represents a number as a variable to a fixed point, long 1075 1075 bytes Where the number can be represented as a string of characters ASCII, ie one symbol equals one digits Just had to write all the arithmetic operations with strings ASCII This program is similar to a paper calculation Since mathematical ability microprocessor in it are not used, she said slowly Why I did it I could not find a program that could accurately represent the number of IEEE754 format, in decimal form I also did not find the program although they certainly have what no doubt where you can enter in box 1075 of significant decimal digits. Here for example just the decimal value of the number of double 7FEFFFFFFFFFFFFF 17976931348623157081452742373170435679807056752584499659891747680315726078002853876058955 863276687817154045895351438246423432132688946418276846754670353751698604991057655128207624 549009038932894407586850845513394230458323690322294816580855933212334827479782620414472316 8738177180919299881250404026184124858368,0.You can use the IEEE754 v 1 0 nbsp to study and evaluate the errors when workin g with real numbers given in the format of IEEE754.References 1 IEEE Standard for Binary Floating-Point Arithmetic Copyright 1985 by The Institute of Electrical and Electronics Engineers, Inc 345 East 47th Street, New York, NY 10017, USA. Acknowledgments Sitkarevu For assistance in creating an article. Archive of reviews with comments nbsp View nbsp nbsp Send us feedback on the e-mail. Floating Point Representation Basics. There are posts on representation of floating point format The objective of this article is to provide a brief introduction to floating point format. The following description explains terminology and primary details of IEEE 754 binary floating point representation The discussion confines to single and double precision formats. Usually, a real number in binary will be represented in the following format. Where I m and F n will be either 0 or 1 of integer and fraction parts respectively. A finite number can also represented by four integers components, a sign s , a base b , a significand m , and an exponent e Then the numerical value of the number is evaluated as. -1 s x m x b e Where m b. Depending on base and the number of bits used to encode various components, the IEEE 754 standard defines five basic formats Among the five formats, the binary32 and the binary64 formats are single precision and double precision formats respectively in which the base is 2.Table 1 Precision Representation. Single Precision Format. As mentioned in Table 1 the single precision format has 23 bits for significand 1 represents implied bit, details below , 8 bits for exponent and 1 bit for sign. For example, the rational number 9 2 can be converted to single precision float format as following. The result said to be normalized if it is represented with leading 1 bit, i e 1 001 2 x 2 2 Similarly when the number 0 000000001101 2 x 2 3 is normalized, it appears as 1 101 2 x 2 -6 Omitting this implied 1 on left extreme gives us the mantissa of float number A normalized number provides more accuracy than corresponding de-normalized number The implied most significant bit can Verwendet werden, um noch genauere Bedeutung zu repräsentieren 23 1 24 Bits, die als subnorme Darstellung bezeichnet werden. Die Gleitkommazahlen sollen in normalisierter Form dargestellt werden. Die subnormalen Zahlen fallen in die Kategorie der de-normalisierten Zahlen. Die subnorme Darstellung verringert den Exponentenbereich leicht Kann nicht normalisiert werden, da dies zu einem Exponenten führen würde, der nicht in das Feld passt. Ungewöhnliche Zahlen sind weniger genau, dh sie haben weniger Platz für Nicht-Null-Bits im Fraktionsfeld, als normalisierte Zahlen. In der Tat sinkt die Genauigkeit als die Größe der Subnorme Zahl verringert Allerdings ist die subnorme Darstellung bei der Ablage von Lücken der Gleitkomma-Skala nahe Null nützlich. Mit anderen Worten kann das obige Ergebnis als -1 0 x 1 001 2 x 2 2 geschrieben werden, was die ganzzahligen Komponenten als s 0 ergibt, B 2, Bedeutung m 1 001, Mantisse 001 und e 2 Die entsprechende Einzelpräzisions-Floating-Nummer kann in Binär dargestellt werden, wie unten dargestellt. Dort soll das Exponent-Feld 2 sein , Dennoch codiert als 129 127 2 genannt voreingenommenen Exponenten Das Exponentenfeld ist in einem einfachen Binärformat, das auch negative Exponenten mit einer Codierung wie Zeichengröße, 1 s Kompliment, 2 s Komplement, etc. darstellt. Der voreingenommene Exponent wird für die Darstellung von negativen Exponenten verwendet Voreingenommenen Exponenten hat Vorteile gegenüber anderen negativen Darstellungen bei der Durchführung eines bitweisen Vergleichs von zwei Gleitkommazahlen für Gleichheit. Eine Vorspannung von 2 n-1 1, wobei n von Bits, die in Exponenten verwendet werden, wird dem Exponenten e hinzugefügt, um den vorgespannten Exponenten E zu erhalten Kann der vorgespannte Exponent E der einzelnen Präzisionszahl erhalten werden. Der Bereich des Exponenten im Einzelpräzisionsformat ist -126 bis 127 Andere Werte werden für spezielle Symbole verwendet. Hinweis Wenn wir eine Gleitkommazahl auspacken, wird der erhaltene Exponent voreingestellter Exponent Subtrahieren 127 aus dem vorgespannten Exponenten können wir den unvoreingenommenen Exponenten extrahieren. Die folgende Abbildung stellt die Gleitkomma-Skala dar. Das Präzisionsformat ist in Tabelle 1 das doppelte Präzisionsformat Hat 52 Bits für Bedeutung und 1 steht implizites Bit, 10 Bits für Exponenten und 1 Bit für Vorzeichen Alle anderen Definitionen sind für das Doppelpräzisionsformat gleich, mit Ausnahme der Größe der verschiedenen Komponenten. Die kleinste Änderung, die in der Gleitkomma-Darstellung dargestellt werden kann, wird aufgerufen Als Präzision Der Bruchteil einer einzigen Präzisions-Normalisierungszahl hat genau 23 Bits Auflösung, 24 Bits mit dem implizierten Bit Dies entspricht log 10 2 23 6 924 7 die Kennlinie der Logarithmus-Dezimalstellen der Genauigkeit Ähnlich bei doppelten Genauigkeitszahlen Die Präzision ist log 10 2 52 15 654 16 Dezimalstellen. Die Genauigkeit in der Gleitkomma-Darstellung wird durch die Anzahl der Signifikanz - und Bits bestimmt, während der Bereich durch den Exponenten begrenzt ist. Nicht alle reellen Zahlen können im Gleitkomma-Format genau dargestellt werden. Für jede beliebige Zahl, die nicht schwebt Punkt-Nummer, gibt es zwei Optionen für Gleitkomma-Näherung, sagen wir, die nächste Fließkommazahl kleiner als x als x und die nächste Floati Ng Punktzahl größer als x als x Ein Rundungsvorgang wird an der Anzahl der signifikanten Bits im Mantissenfeld durchgeführt, basierend auf dem gewählten Modus. Der Round-Down-Modus bewirkt, dass x auf x gesetzt ist. Der Round-Up-Modus bewirkt, dass x auf x gesetzt ist Null-Modus verursacht x ist entweder x oder x, je nachdem, welcher Wert zwischen null ist und der runde zum nächsten Modus setzt x auf x oder x je nachdem, welcher der x am nächsten ist. Normalerweise runde zum nächstgelegenen ist der am meisten benutzte Modus Die Nähe der Gleitpunktdarstellung zum aktuellen Wert wird aufgerufen Als Genauigkeit. Spezielle Bitmuster. Der Standard definiert wenige spezielle Gleitkomma-Bit-Muster Zero kann t haben die meisten signifikante 1 Bit, daher kann t normalisiert werden Die verborgene Bit-Darstellung erfordert eine spezielle Technik für die Speicherung Null Wir haben zwei verschiedene Bit-Muster 0 und -0 für den gleichen numerischen Wert Null Für die Einzelpräzisions-Gleitkomma-Darstellung sind diese Muster unten angegeben. 00000000 00000000000000000000000 0,1 00000000 00000000000000000000000 -0.Similarly the standard represents two different bit patters for INF and - INF The same are given below.0 11111111 00000000000000000000000 INF.1 11111111 00000000000000000000000 - INF. All of these special numbers, as well as other special numbers below are subnormal numbers, represented through the use of a special bit pattern in the exponent field This slightly reduces the exponent range, but this is quite acceptable since the range is so large. An attempt to compute expressions like 0 x INF, 0 INF, etc make no mathematical sense The standard calls the result of such expressions as Not a Number NaN Any subsequent expression with NaN yields NaN The representation of NaN has non-zero significand and all 1s in the exponent field These are shown below for single precision format x is don t care bits. x 11111111 1 m 0000000000000000000000.Where m can be 0 or 1 This gives us two different representations of NaN.0 11111111 110000000000000000000000 Signaling NaN SNaN.0 11111111 100000000000000000000000 Quiet NaN QNaN. U Stetig QNaN und SNaN werden für die Fehlerbehandlung verwendet QNaN erheben keine Ausnahmen, da sie sich durch die meisten Operationen ausbreiten. Während SNaN sind, welche, wenn sie von den meisten Operationen verbraucht werden, eine ungültige Ausnahme auslösen wird. Overflow und Underflow. Overflow wird angezeigt, wenn das wahre Ergebnis von Eine arithmetische Operation ist endlich, aber grßer als die größte Gleitkommazahl, die unter Verwendung der gegebenen Genauigkeit gespeichert werden kann. Unterströmung soll auftreten, wenn das wahre Ergebnis einer arithmetischen Operation in der Größenordnung kleiner ist als die kleinste normalisierte Gleitkommazahl, die kann Gespeichert werden Überlauf kann in Berechnungen ignoriert werden, während Unterlauf effektiv durch Null ersetzt werden kann. Der IEEE 754 Standard definiert ein binäres Gleitkommaformat Die Architekturdetails bleiben den Hardwareherstellern vorbehalten Die Speicherreihenfolge einzelner Bytes in binärer Gleitkommazahl variiert von Architektur zu Architektur. Dank Venki zum Schreiben des obigen Artikels bitte wri te comments if you find anything incorrect, or you want to share more information about the topic discussed above. Method for eletronically representing a number, adder circuit and computer system US 5923575 A. The invention relates to a method for electronically representing a number V in a binary data word Both the exponent and the mantissa are represented as 2 complement The mantissa is normalized to 0 1 F if the number V is positive where F is the fraction of the mantissa In case that the number V is negative the fraction F is normalized to 10 F Usage of this format allows to design an improved adder which requires less hardware. 11.1 A method for electronically representing a number V in a binary data word, the data word having a set of exponent bits E and having a set of mantissa bits M, the method comprising the steps of. representing the exponent bits E in 2 complement form and. representing the mantissa bits M in 2 complement form whereby. in case that the number V is positive, a fraction F of the mantissa bits M of the number V is normalized to a 01 F form and the exponent bits E are adapted by shifting the number V a number of times and adding the number shifts to the exponent bits E of the number V and. in case that the number V is negative, the fraction F of the mantissa bits M is normalized to a 10 F form and the exponent bits E are adapted by converting the number V into a 2 complement form, shifting the number V a number of times, and adding the number of shifts to the exponent bits E of the number V and. dropping the leading mantissa bit to form a binary word including the resulting exponent bits E and mantissa bits.2 The method according to claim 1.whereby one of the mantissa bits M is a sign bit and the remaining sub-set of bits is the fraction F so that the number V equals. in case that the sign bit indicates that the number V is positive. in case that the sign bit indicates that the number V is negative. a number of computing units and. an inverse log converter. wherein the input log converter is adapted to convert input data words into a log domain and to shift log converted input data words into the data pipeline. wherein the data pipeline is coupled to the computing units, so that when a data word is shifted through the data pipelines consecutive computing units receive the data word as an input. wherein each computing unit has an output coupled to the inverse log converter to perform a conversion back from the log domain to obtain a result and. wherein an input data word V is electronically represented in the log domain in a binary data word, the data word having a set of exponent bi ts E and having a set of mantissa bits M, the exponent bits E being represented in 2 complement form and the mantissa bits M being represented in 2 complement form whereby. in case that the number V is positive, a fraction F of the mantissa bits M Of the number V is normalized to 01 F form and the exponent bits E are adapted by shifting the number V a number of times and adding the number shifts to the exponent bits E of the number V and. in case that the number V is negative, the fraction F of the mantissa bits M is normalized to a 10 F form and the exponent bits E are adapted by converting the number V into a 2 complement form, shifting the number V a number of times, and adding the number of shifts to the exponent bits E of the number V and. dropping the leading mantissa bit to form a binary word including the resulting exponent bits E and mantissa bits.11 A computer system comprising. an input log converter. a data pipeline. a number of computing units, each computing unit having an adde r for adding a first number M A and a second number M B , the first and second numbers being normalized to have either a leading 01 or a leading 10 in a binary representation, wherein the adder circuit comprises. a an adder block for adding the first number M A and the second number M B to obtain a result. b a leading msb detector coupled to an output of the adder block to detect a sequence of leading 0 or 1 bits in the result, the sequence having a length L and. c a barrel shifter to shift the result for a number of L-1 shifts to the left in order to normalize the result and. an inverse log converter. wherein the input log converter is adapted to convert input data words into a log domain and to shift log converted input data words into the data pipeline. wherein the data pipeline is coupled to the computing units, so that when a data word is shifted through the data pipelines consecutive computing units receive the data word as an input. wherein each computing unit has an output coupled to the inverse log converter to perform a conversion back from the log domain to obtain a result. The present invention is related to the following inventions which are assigned to the same assignee as the present invention. 1 Computer Processor Utilizing Logarithmic Conversion and Method of Use thereof, having Ser No 08 430,158, filed on Mar 13, 1995, now U S Pat No 3,597,670. 2 Exponentiator Circuit Utilizing Shift Register and Method of Using Same , having Ser No 08 401,515, filed on Mar 10, 1995, now U S Pat No 5,553,012. 3 Accumulator Circuit and Method of Use Thereof , having Ser No 08 455,927, filed on May 31, 1995, now U S Pat No 5,644,520. 4 Logarithm Inverse-Logarithm Converter and Method of Using Same , having Ser No 08 381,368, filed on Jan 31, 1995, now U S Pat No 5,642,305. 5 Logarithm Inverse-Logarithm Converter Utilizing Second Order Term and Method of Using Same , having Ser No 08 382,467, filed on Jan 31, 1995, now U S Pat No 5,703,801. 6 Logarithm Inverse-Logarithm Converter Utilizing Linear Interpolation and Method of Using Same , having Ser No 08 391,880, filed on Feb 22, 1995, now U S Pat No 5,600,581. 7 Logarithm Inverse-Logarithm Converter Utilizing a Truncated Taylor Series and Method of Use Thereof , having Ser No 08 381,167, filed on Jan 31, 1995, now U S Pat No 5,604,691. 8 Logarithm Converter Utilizing Offset and Method of Use Thereof , having Ser No 08 508,365, filed on Jul 28, 1995, now U S Pat No 5,629,884. 9 Method and System for performing a convolution operation , having Ser No 08 535,800, filed on Sep 28, 1995.TECHNICAL FIELD OF THE INVENTION. The present invention relates generally to computing and digital signal processing and, in particular, to techniques for electronically representing a number. BACKGROUND OF THE INVENTION. For the purposes of computing and digital signal processing, in particular for telecommunication, it is known in the art to represent numbers as binary data words Such a binary data word typically is representative of some real world value In the case of digital signal processing such a binary data word typically represents a sampled value of some real process like sampled speech or video data. To represent a number in a binary data word for the purposes of computing or digital signal processing a number of approaches are commonly used in the prior art Integer numbers are usually represented in 2 complement In the 2 complement form the most significant bit holds th e sign if the data word is not declared to be an unsigned integer value The 2 complement of a binary number is found by reversing all the digits of the number and then adding one For example, the 2 complement of 0001 is 1110 1 1111 In mathematical terms the 2 complement x of a number x is. Where both x and x are represented as a binary number with k digits. The most popular representation for floating--point numbers is the format according to ANSI IEEE standard 754-1985 which has been implemented by nearly all floating-point chip sets including Intel s 8087 287 387, Motorola s 68881 as well as chip sets from AMD The IEEE standard is therefore universal in microcomputers that accept those chips, including the IBM PC. The way a number is electronically represented for computing purposes is highly influential on the performance of the computing or digital signal processing system which process such a number and therefore on the expense in terms of hardware to obtain a given computing through put. By definition, digital signal processing is connected with the representation of signals by sequences of numbers or symbols and the processing of these signals DSP has a wide variety of applications and its importance is evident in such fields as pattern recognition, radio communications, telecommunications, radar, biomedical engineering, and many others. At the heart of every DSP system is a computer processor that performs mathematical operations on signals Generally, signals received by a DSP system are first converted to a digital format used by the computer processor Then the computer processor executes a series of mathematical operations on the digitized signal The purpose of these operations can be to estimate characteristic parameters of the signal or to transform the signal into a form that is in some sense more desirable Such operations typically implement complicated mathematics and entail intensive numerical processing Examples of mathematical operations that may be perf ormed in DSP systems include matrix multiplication, matrix-inversion, Fast Fourier Transforms FFT , auto and cross correlation, Discrete Cosine Transforms DCT , polynomial equations, and difference equations in general, such as those used to approximate Infinite Impulse Response IIR and Finite Impulse Response FIR filtersputer processors vary considerably in design and function One aspect of a processor design is its architecture Generally, the term computer architecture refers to the instruction set and organization of a processor An instruction set is a group of programmer-visible instructions used to program the processor The organization of a processor, on the other hand, refers to its overall structure and composition of computational resources, for example, the bus structure, memory arrangement, and number of processing elements. In a computer, a number of different organizational techniques can be used for increasing execution speed One technique is execution overlap. Execution ov erlap is based on the notion of operating a computer like an assembly line with an unending series of operations in various stages of completion Execution overlap allows these operations to be overlapped and executed simultaneously. One commonly used form of execution overlap is pipelining In a computer, pipelining is an implementation technique that allows a sequence of the same operations to be performed on different arguments Computation to be done for a specific instruction is broken into smaller pieces, i e operations, each of which takes a fraction of the time needed to complete the entire instruction Each of these pieces is called a pipe stage The stages are connected in a sequence to form a pipeline--arguments of the instruction enter at one end, are processed through the stages, and exit at the other end. These are many different architectures, ranging from complex-instruction-set-computer CISC to reduced-instruction-set-computer RISC based architectures In addition, some archit ectures have only one processing element, while others include two or more processing elements Despite differences in architectures, all computer processors have a common goal, which is to provide the highest performance at the lowest cost However, the performance of a computer processor is highly dependent on the problem to which the processor is applied, and few, if any, low-cost computer processors are capable of performing the mathematical operations listed above at speeds required for some of today s more demanding applications For example, MPEG data compression of an NTSC television signal can only be performed using expensive supercomputers or special purpose hardware. Many other applications, such as matrix transformations in real-time graphics, require data throughput rates that exceed the capabilities of inexpensive, single processors, such as micro processors and commercially available DSP chips Instead, these applications require the use of costly, multiprocessor or multiple - processor computers Although multiprocessor computers typically have higher throughput rates, they also include complex instruction sets and are generally difficult to program. Therefore there is a need to provide for an improved method for electronically representing a number in a binary data word, an improved adder circuit and microprocessor incorporating such an adder circuit and an improved computer system. SUMMARY OF THE INVENTION. The invention is pointed out with particularity in the appended claims Preferred embodiments of the invention are given in the dependent claims. The invention is advantageous in that it allows to represent both the exponent and the mantissa of a number in 2 complement form This is made possible by normalizing the mantissa differently depending on whether the number to be represented is positive or negative Such normalizations can be carried out with minimal hardware expense by performing shift operations. In case that the number to be represented is 0 the i nvention allows to encode the value of 0 in the exponent For this purpose a predefined value of the exponent bits indicates that the number equals 0 This predefined value can be for example a leading 1 with a sequence of zeros If the exponent has a width of 4 bits, the value of zero would be represented by 1000 whereby the mantissa is don t care --in the example considered here. Further the method for electronically representing a number is advantageous in that it allows to add two numbers represented in such a way more efficiently with less hardware expense Due to the representation of the mantissa in 2 complement it is not necessary to compare the mantissas of the two numbers to be added before the calculation is carried in contrast to the above referenced IEEE standard. Moreover the mantissas are always added and not subtracted also if they represent negative numbers This is also due to the 2 complement presentation An additional advantage is that no sign logic is needed As a conseque nce a micro processor which uses the teaching of the invention can more efficiently perform summations and therefore have a higher computing throughput If a computer program is to be carried out by the micro processor this has the effect that it can be carried out at a higher processing speed In the case that the computer program is a digital signal processing application this has the effect that the microprocessor can deal with a higher sampling rate. In digital signal processing like finite or infinite impulse response filtering typically a large number of multiplications has to be carried out If the two operands to be multiplied are converted into the log domain the multiplication becomes a summation The result is obtained by converting the sum back into the normal domain A computer system of such a type is disclosed in above-identified related inventions number 1 Ser No 08 430,158 and number 9 Ser No 08 535,800 Implementation options for such a computer system are also described in various of the copending applications or patents 2 to 8.Such a computer system operating in the log domain consists of a number of computing units which comprise an adder in order to perform the multiplication s in the log domain If a number is represented according to the invention in such a computer system this allows to safe hardware for the adders, improve the operational speed and at the same time save precious silicon floor space Also power can be saved since the design of the adders is more compact. BRIEF DESCRIPTION OF THE DRAWINGS. The invention will become more apparent and will be best understood by referring to the following detailed description of a preferred embodiment in conjunction with the accompanying drawings in which. FIG 1 is a flow chart illustrating a preferred embodiment of the method for electronically representing a number of the present invention. FIG 2 is a flow chart of a preferred embodiment of the method for adding two numbers according to the present inventi on. FIG 3 shows a block diagram of a preferred embodiment of an adder according to the invention. FIG 4 shows a micro processor system which incorporates the principles of the invention. FIG 5 shows an embodiment of a computer system which uses the principles of the invention. DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS. Referring to the flow chart of FIG 1 it is explained in more detail how a number V is represented the format of the invention After the number V is inputted in step 100 it is decided in step 102 whether the number V is positive The way this decision is made depends on the way the number V is represented initially If the IEEE representation is used the sign bit can be checked to make the determination. If it is decided in step 102 that the number V is positive the control goes to step 104 in which the number V is put into the form 01 F The exponent of the number V is represented in 2 complement and adapted to the normalization into 01 F correspondingly. First in step 106 the number V is shifted for a number of times so that a leading 01 before the decimal point results This corresponds to the format of 01 F where F stands for the fractional bits behind the decimal point. Second in step 108 the exponent of the number V is adapted according to the number of shifts performed in step 106 If number F is shifted in step 106 to the left in order to obtain the 01 F format this means that the shift has negative value This value is subtracted from the initial exponent of the number V--if any If the number V did not initially have an exponent the number of shifts of step 106 becomes the exponent of the number V The exponent is represented as 2 complement. In step 110 the leading mantissa bit 0 of the mantissa 01 F is dropped The result is outputted in step 112 The result consists of a binary data word 114 which has exponent bits E V 116 and mantissa bits M V 118.The exponent E V is represented without the sign bit in 2 complement form The mantissa M V has a length of N 1 bits M0 V , M1 V , M2 V MN V The leading most significant bit M0 V is set to be equal 1 to indicate that the mantissa is positive The remaining part of the mantissa bits M1 V , M2 V MN V is the fraction F of the format 01 1F to which the number V was shifted in step 106.If it is decided in step 102 that the number V is negative the control goes to step 120 to convert the mantissa into 2 complement representation as well as the exponent, to normalize the mantissa and to adapt the exponent correspondingly. First, in step 122 the number V is converted into a 2 complement representation For the conversion into the 2 complement representation all digits of the number V are inverted and 1 is added to the least significant bit of the inverted number V In step 124 the converted number V is shifted for a number of times so that the format 10 F results similar to the shifting of step 106 Also the exponent of the number F is adapted correspondingly and also represented as a 2 complement. In step 126--similar to step 108--the most significant leading mantissa bit which is 1 is dropped The result is obtained in step 130 which again consists of the exponent bits E V 116 and the mantissa bits M V 118 As opposed to the result obtained in step 112 the mantissa bit M0 V equals 0 to indicate that the value of the number V is negative. In the following examples are given of how a positive number V is represented in the format of the invention. In the first example the number V equals -1 011 and is initially represented in the IEEE format. Since the number V is negative--which is represented by the sign bit in the IEEE format--first the 2 complement has to be determined The sign bit - is represented by 0 so that the initial IEDE representation of V as 01 011 results En 2 complement this is 10 101 after inversion of all bits of 01 011 to 10 100 and adding of 00 001 the original exponent of V--if any--is represented in 2 complement and otherwise remains unchanged In this case no shift ing was necessary to create the format 10 F The resulting mantissa M V is therefore is M0 V 0, M1 V 1, M2 V 0 and M3 V 1 which corresponds to the fraction F 101 of the 10 101 representation of V. In the second example the number V equals 1 010 and is also initially represented in the IEEE format As V is positive it stays 01 010 and the exponent is the same The resulting fraction F is 010.In the next example V equals -1 000 again in IEEE format The 2 complement of 01 000 is 11 000 This does not correspond to the required format 10 F and must therefore be normalized Shifting of 11 000 one shift left results in 10 000 This requires that the original exponent of V is decrement by one. If the actual value of the number V in the format of the invention is to be determined this is done by evaluating. for the case that the sign bit M0 V 1 and thus V positive, or. in case that the sign bit M0 V 0 and thus V negative. Examples are shown in the below table 1.In the example considered in table 1 there are 4 bit positions in the mantissa M V No exponents are shown in table 1--the exponents are assumed to be equal to zero The left most column of table 1 shows the mantissas M V of numbers which are represented according to the invention. Starting from the top of the table the numbers having a leading 0 --in other words M0 V 0--are negative whereas the numbers the lower portion of the table 1 have a most significant bit which is 1 --in other words M0 1--and which are therefore positive The digits after the most significant bit--in this case three bits--are representative of the fraction F of the numbers V. The middle column of the table 1 shows the expanded mantissas of the numbers V of the left most column For the negative numbers this means that 1 is added as the most significant bit This is the inversion of step 128 in which the leading 1 wars dropped In the table the leading 1 appears in brackets Also the decimal point is shown in the middle column of the table 1 corresponding to the normalization performed in the step 124.The same applies analogously to the positive numbers V for which a 0 in brackets is added as an inversion of the step 110 Also the decimal point is shown corresponding to the normalization of the step 106 Using the fraction F as an input to equations 2 and 3, respectively the resulting value is shown in the right most column as a binary value whereby it is assumed that the exponent equals 0 for all the numbers V. If the exponent of a number V is not equal to 0 the real value is obtained by shifting the result shown in the right most column for a number of times corresponding to the exponent. In the following--with reference to FIG 2--it is shown how the unique format of the invention to represent a number V can be advantageously used if two such numbers are to be added In step 200 a number X and a number Y which are to be added are inputted Both X and Y are in the format of the invention. In step 202 the absolute difference D of the exponents E X an d E Y is determined In step 204 it is determined which of the exponents E X and E Y is bigger En step 206 the preliminary assumption is made that the exponent of the result of the summation of X and Y equals the bigger one of the exponents E X and E Y. In step 208 the mantissas M X and M Y are expanded like shown in the middle column of table 1 This means that the leading most significant bit which is 0 for a positive number and 1 for a negative number is reintroduced into the representation of the mantissas to invert steps 110 and 128, respectively. In step 210 the mantissa of the operand X or Y with the smaller exponent is shifted for a number of D shifts to the right The information which of the mantissas has the smaller exponent is obtained from the result of step 204.In step 212 the mantissa which is shifted in step 210 and the other expanded mantissa which was not shifted are added For adding the two mantissas no sign logic is needed since both the shifted and the unshifted mantiss as are represented as 2 complement numbers. In step 214 it is evaluated whether an overflow occurred when the shifted and the unshifted mantissa were added in step 212 Overflow occurred if the shifted and the unshifted mantissas have the same most significant bit and the result of the summation has a different most significant bit If this is the case the control goes to step 216 in which one is added to the preliminary exponent of the result as obtained in step 206 Further in step 216 the result obtained in step 212 of the added mantissas is shifted one position to the right in order to adjust the decimal point The result obtained in step 216 is a final result and is represented in the format of the invention. If it is determined in step 214 that no overflow occurred a sequence of leading 0 or 1 is to be detected in the result obtained by adding the shifted and unshifted mantissas in step 212 The detection of the sequence of leading 0 or 1 is done in step 218.The length of the sequence o f the leading 0 or 1 is denoted L in the following If it is detected in step 220 that the result obtained in step 212 only consists of zeros this indicates that the result of the addition is in fact equal to zero As a value of zero can not be represented in the mantissa when it is in a format according to the invention the value of zero is encoded in the exponent This is done by assigning a predetermined value to the exponent of the result the predetermined value is indicative of the value zero of the result For this purpose any possible exponent value can be selected In the example considered here the exponent is assigned to the value of 10000000 in an 8 bit representation. If it is determined in step 220 that the sequence detected in step 218 does not only consist of zeros, the control goes to step 224 In step 224 the result obtained in step 212 is renormalized to the format of the invention This is done by shifting the result obtained by adding the shifted and unshifted mantissas L-1 times to the left and correspondingly subtracting L-1 from the preliminary exponent of the result obtained in step 206 The resulting number has the form 01 F or 10 F depending on whether the number is positive or negative Since the leading most significant bit in the format 01 F and 10 F is redundant it is thrown in step 226 corresponding to the respective steps 110 and 128 of FIG 1.With reference to FIG 3 now an adder circuit is described which can add the two numbers X and Y In the example considered here the exponents are 8 bit wide and the mantissas are 24 bit wide In the representation of steps 112 and 130 of FIG 1 this means that there are 24 mantissa bits M0-M23 The exponents E X and E Y to be inputted into the adder shown in FIG 3 again are in 2 complement form and the mantissas are normalized in the way as described with reference to FIG 1.The adder shown in FIG 3 has a subtractor 300 which has two inputs to receive the exponents E X and E Y Further the adder of FIG 3 has a z ero detector and multiplexer 302 which also receives the exponents E X and E Y as input values The subtractor 300 has a control output 304 which indicates which one of the exponents E X or E Y is the bigger one of both. The control output 304 is coupled to the zero detector and multiplexer 302 as well as to swap circuit 306 The swap circuit 306 receives the mantissas M X and M Y as 24 bit inputs The swap circuit 306 has a control input 308 which is coupled to the control output 304 further the swap circuit 306 has data outputs 310 and 312.The data outputs 310 and 312 are one bit wider than the inputs of the swap circuit 306--in this case 25 bits instead of 24 bits The data output 310 of the swap circuit 306 is coupled to barrel shifter 314 as a data input The barrel shifter 314 has a control input 316 which is coupled to control output 318 of the subtractor 300.The barrel shifter 314 has a control output 318 which is coupled to data input of adder block 320 The other data input of adder block 320 is coupled to the data output 312 of the swap circuit 306.The zero detector and multiplexer 302 has its output coupled to subtractor adder by 1 block 322 as a data input The other input of the subtractor adder by 1 block 322 is coupled to output 324 of leading most significant bit detector 326.The adder block 320 has an overflow output which is coupled via line 328 to the subtractor adder by 1 block 322 and to barrel shifter 330 The barrel shifter 330 has its data input coupled to data output of the adder block 320 via line 332 The line 332 is 25 bits wide The barrel shifter 330 is also coupled to the output 324 of the leading msb detector 326.The leading msb detector 326 is also coupled via output line 334 to the subtractor adder by 1 block 322 The exponent E Z of the result Z of the summation of X and Y is present at the output 336 of the subtractor adder by 1 block 322 and the normalized mantissa M Z of the result Z is present at the output 338 of the barrel shifter 330.I n operation the exponent bits E X and E Y as well as the mantissa bits M X and M Y of the two numbers X and Y to be added are inputted simultaneously into the adder circuit By means of the subtractor 300 the absolute difference D of the exponents E X and E Y is determined. If the difference D is bigger than the width of the mantissa input into swap circuit 306--in this case 24 bit--the width of the mantissa input is taken as the difference D since this is the maximum number of shifts which can be performed This corresponds to step 202 of FIG 1.The subtractor 300 also determines which one of the exponents E X and E Y is the bigger one This corresponds to step 204 of FIG 2 The information which one of the exponents is bigger is available at the control output 304 According to the logical value of the control output 304 the zero detector and multiplexer 302 is controlled to output the bigger one of the exponents E X and E Y to the subtractor adder by 1 block 322 This corresponds to step 20 6 of FIG 2.The information which one of the exponents E X or E Y is bigger is also inputted into the swap circuit 306 at its control input 308 The swap circuit 306 swaps the inputs M X and M Y so that the mantissa M of one of the numbers X or Y having the smaller exponent is outputted at the data output 310 to the barrel shifter 314.The result of the determination of the difference D is available at the control output 318 of the subtractor 300 and is inputted into the control input 316 of the barrel shifter 314.In the swap circuit 306 the hidden most significant bit is included in the mantissas M X and M Y --corresponding to step 208 of FIG 2 As a consequence the data outputs 310 and 312 of the swap circuit 306 are one bit wider than the mantissa inputs--in this case 25 bits wide The barrel shifter 314 shifts the expanded mantissa of the operand having the smaller exponent for a number of ED shifts to the right--corresponding to step 210 of FIG 2.The result of this shift operation is a vailable at the control output 318 of the barrel shifter 314 and is still 25 bit wide Consecutively both the shifted and the unshifted mantissas are inputted into the adder block 320.If an overflow occurs when the shifted and unshifted mantissas are added in the adder block 320 this is indicated by line 328 both to the subtractor adder by 1 block 322 and the barrel shifter 330 This has the effect that the value of the output line 334 is ignored by the subtractor adder by 1 block 322 and that 1 is added to the exponent inputted by the zero detector and multiplexer 302 into the subtractor adder by 1 block 322 The result of this addition is the final result of the exponent E Z which is outputted at output 336 Correspondingly, the barrel shifter 330 shifts the result outputted by adder block 320 via line 332 one position to the right and drops the leading most significant bit so that the resulting mantissa M Z is obtained at output 338 This corresponds to step 216 of FIG 2.If no overflow o ccurs in the adder block 320 cf step 214 of FIG 2 the leading most significant bit detector 326 which has its data input coupled to the data output of the adder block 320 detects a sequence of leading 0 or 1 to detect the length of the sequence L--like explained with respect to step 218 of FIG 2 The value of L is available at the output 324 of the leading msb detector 326 If the value of L reveals that the result of the summation in adder block 320 is zero this is notified by the leading msb detector 326 to the subtractor adder by 1 block 322 via load output line 334 and a predetermined value which is indicative of the result being zero is loaded into the subtractor adder by 1 block 322 This loaded value is the resulting exponent E Z This corresponds to step 222 of FIG 2.If the result obtained by adder block 320 is not zero, L-1 is subtracted from the exponent inputted by the zero detector and multiplexer 302 into the subtractor adder by 1 block 322 in order to obtain the resulting exp onent E Z Correspondingly the mantissa is normalized by shifting a number of L-1 times to the left in barrel shifter 330 Again the leading most significant bit is dropped in the barrel shifter 330 so that a 24 bit wide resulting mantissa M Z is obtained This corresponds to step 226 of FIG 2.In case that the result obtained at the output of adder block 320 is zero the value of the resulting mantissa M Z is don t care because the value of the exponent indicates that the number Z is in fact zero If however one of the input values X or Y is zero this is detected in the zero detector and multiplexer 302 which compares both exponents E X and E Y with the predefined exponent value which is indicative of zero--in this case 80 h If zero is detected by the zero detector and multiplexer 302 this is notified to the swap circuit 306 via line 340 and the mantissa of the corresponding number X or Y which is 0 is filled with 0 to overwrite any don t care values. With reference to FIG 4 it is explained in greater detail with respect to a preferred embodiment how the invention can be used for computing purposes FIG 4 shows an electronic system 400 which can be any electronic device requiring some kind of computing and or digital signal processing Typical examples are telecommunication devices such as cellular phones. The electronic system 400 has a program storage 402 and memory 404 Computing unit 406 is coupled via a bi-directional bus 408 to the memory 404 A program stored in the program storage 402 can be loaded into the computing unit 406 via line 410.The memory 404 contains a number of data words which are represented in a format according to the invention One of the data words is shown by way of example as data word 412 When the computing unit 406 has to carry out some kind of a digital signal processing calculation it loads the corresponding computer program from the program storage 402 In order to carry out the digital signal processing program data words have to be fetched via the bi-directional bus 408 from the memory 404 The data required for carrying out the computer program is in the unique format according to the invention. This allows to take advantage of the improved adding of numbers which are represented in a format according to the invention in the computing unit 406--for example if the computing unit is a micro processor the micro processor can comprise one or more adders of the type shown in FIG 3 to more economically carry out large numbers of summations. FIG 5 shows a block diagram of a computer system in which the unique representation of a number according to the invention is particularly beneficial The input block converter 500 receives input data words to be inputted into the computer system An input data word is logarithmized by the input log converter 500 and inputted into the first register R0 of data pipeline 502.The data pipeline 502 consists of a number of registers R0 to Rn which are coupled together to form a shift register chain Eac h of the registers Ri is coupled to its corresponding computing unit CUi Each of the computing units CUO-CUn can access its corresponding register R i to access a data word which is stored in the corresponding register. Each of the computing units CUO-CUn has an output which is coupled to reverse log converter 504 The inverse log converter 504 performs an inverse logarithm operation on the output of the computing unit CUi to transform the result of the computation back into the normal domain The results which are obtained by inverting the outputs of the computing units CUi are transferred to an accumulator 506 which adds all the results so that final output results at the output 508 of the accumulator 506.In operation a sequence of data input words are received by the input block converter 500 and a resulting sequence of input data which are in the log domain is shifted into the data pipeline 502 Each computing unit CUi accesses its corresponding register Ri to obtain the corresponding data input value A computation is performed in the computation unit CUi and the result is outputted to the inverse log converter 504 to transform the result of the computation back from the log domain into the normal domain. All the results of the computing units are accumulated in the accumulator 506 after the inverse log operation which is performed by inverse log converter 504 The computation which is carried out in the computation units CUi can be of a finite impulse response filter or infinite impulse response filter type In this case each of the computing units CUi has one coefficient of such a filter operation stored in an internal register which is not shown in the drawing for simplicity To perform such a filter operation in each computing unit the corresponding coefficient has to be multiplied with the input data word stored in the corresponding register Since this multiplication is carried out in the log domain the multiplication becomes a summation In the latter case in fact the computing units CUi are adders which can be implemented by means of an adder of the type as shown in FIG 3 provided that both the input data words in the log domain which are stored in the registers Ri as well as the coefficients of the filter operations which are stored in the computing units are represented in a format according to the principles of the invention. Since in an architecture of the type shown in FIG 5 a large number of computing units exists the use of an adder of the type as shown in FIG 3 has a very substantial positive effect. The same applies analogously to the implementation of the accumulator 506 which can also be realized by adders of the type shown in FIG 3 again provided that the output of the inverse log converter 504 is represented in a format in accordance with the principles of the invention. Normalization of a floating point number. This all depends upon the way floating point numbers are stored Forget binary for now, think in decimal. If I have the value 8 7 6 then I can write it as 87 6 x 10 0 8 76 x 10 1 0 876 x 10 2 0 0876 x 10 3.Normalisation is simply process of choosing which of these is best, according to some rules In decimal, we normally choose 0 876 x 10 2, because it follows these simple rules - The mantissa has no non-zero digits before the decimal point - The mantissa has a non-zero digit immediately after the decimal point Another way of writing this is that the mantissa is in range 0 1 0 99999.Applying this binary floating point numbers When we normalise a binary number we have to apply the same rules to the mantissa It must have no non-zero digits before the decimal I mean, binary point, and a non-zero digit immediately after the binary point Or to put it another way, it must be in the range 0 5 0 999999 in decimal. We do this for several reasons 1 It gets the best use out of our available bits 2 It simplifies the hardware required to do arithmetic. Of course, when we normalise in either decimal or binary, we have to adjust the exponent accordingly to keep the same value. Bob 3 years ago. A number is normalized in order to get the greatest precision This is done by multiplying the number by some power of the number base radix show more A number is normalized in order to get the greatest precision This is done by multiplying the number by some power of the number base radix to get it into a particular range, where it is then truncated or rounded to a fixed number of digits. Since floating point formats have a fixed number of digits, moving the leading digit as far left as possible leaves the most room for low order digits to be retained That s what normalization does, primarily It avoids wasting digit postions by storing leading zeroes. Binary floating point formats can also gain one extra bit of precision by not storing the leading 1 bit The IEEE 488 binary floating point formats do this, for example, and they are used by almost everyone these days Some IBM mainframes still support a base-16 floating point s tandard inherited from the S 360 This is only possible in binary, where the leading digit can only be 1 Zero values indicated by every bit--except perhaps the sign bit--is a 0.If your 8-bit number were to be normalized into an 8-bit field, there s no advantage to normalization However, if you were to normalize the 16-bit value 00101101 01101001 into an 8-bit field, you d get.10110101 1 rounded up to 10110110 if the leading 1 bit is stored, or 1 01101011 0 rounded down to 1 01101011 if the leading 1 is not stored. The bits show leading and trailing bits not stored The bits on the right may be used for rounding, though There are usually different rounding mode options telling how to handle a normalized result that has to lose some bits on the right. Just storing the first 8 bits would get you 00101100, only 5 bits after the leading 1 Normalizing raises that to 7 bits after the leading 1 Normalizing and not storing the leading 1 raises that to 8.husoski 3 years ago. Sign in to add a comment. To expand just a tiny bit on what Bob said, using his example 0 876 x 10 2 is really 876 x 10 2 Because the zero before the decimal while good in show more To expand just a tiny bit on what Bob said, using his example.0 876 x 10 2 is really 876 x 10 2.Because the zero before the decimal while good in print for our eyes is not needed in the computer representation. EddieJ 3 years ago. Sign in to add a comment. Answer this question. Related Questions. Report Abuse. Report Abuse. Sorry, you ve reached your daily asking limit Earn more points or come back tomorrow to ask more. Asking costs 5 points, and then choosing a best answer earns you 3 points Questions must follow the Community Guidelines. Media upload failed You can try to add the media again or go ahead and post the answer. Media upload failed You can try to add the media again or go ahead and post the question. Uploaded image is less than the minimum required 320 x 240 pixel size. Sorry, file format is not supported. You can only upload image s of a size less than 5 MB. You can only upload videos of a size less than 60 MB. Generating preview. Go ahead and post your answer Uploaded video will be live after processing. Go ahead and post your question Uploaded video will be live after processing. Sending request. This may take one or two minutes.

No comments:

Post a Comment